Das Beste aus Gesundheitsdaten herausholen De-Identifizierungsmethoden in Ihrem Dienst

Ein Gastbeitrag von Olga Romanova und Oliver Hilgers Lesedauer: 7 min

Anbieter zum Thema

Medizingeräte, IoT-Anwendungen oder die elektronische Patientenakte – sie alle generieren Unmengen an Daten. Diese können wiederum verwendet werden, um die Entwicklung von Medizinprodukten zu verbessern. Vorausgesetzt, die Daten wurden DSGVO-konform anonymisiert.

Der Datenschutz ist bei sensiblen Gesundheitsdaten besonders wichtig
Der Datenschutz ist bei sensiblen Gesundheitsdaten besonders wichtig
(Bild: koldunova – stock.adobe.com)

Die Digitalisierung des Gesundheitswesens ist in vollem Gange und verändert jeden Industriezweig. Die Einführung einer Vielzahl digitaler Lösungen hat zu einer explosionsartigen Zunahme von Gesundheitsdaten geführt, die schnell zum wertvollsten Gut der Branche geworden sind. Die effektive und sichere Erfassung, Verarbeitung, Speicherung und Analyse von Gesundheitsdaten ist für Unternehmen des Gesundheitswesens, Angehörige der Gesundheitsberufe und Patienten unerlässlich, um durch gezieltere Produktangebote und datengestützte Entscheidungen bessere Gesundheitsergebnisse zu erzielen.

Die Gesundheitsbranche selbst ist jedoch komplex – und zudem stark reguliert. Das macht den konformen Umgang mit Daten zu einer schwierigen Aufgabe. Die Bewältigung dieser Herausforderung ist der Schlüssel, um die Möglichkeiten der prädiktiven Analytik im Gesundheitswesen zu nutzen.

Gesundheitsdaten, die in elektronischen Patientenakten gesammelt werden, gelten als besonders schützenswerte personenbezogene Daten, die gemäß der Datenschutz Grundverordnung (EU) 2016/679 („DSGVO“) im Allgemeinen nur für ursprünglich bestimmte Zwecke verwendet werden dürfen. In bestimmten Fällen sind jedoch auch spezifische weitere Anwendungsfälle erlaubt. Außerhalb des ursprünglichen Verwendungszwecks müssen in der Regel alle persönlich identifizierbaren Informationen (PII) entfernt werden, so dass sie nicht mehr zu einer Person zurückverfolgt werden können. Die anonymisierten Daten können dann für bestimmte neue Zwecke verwendet und weiter analysiert, aggregiert und verarbeitet werden, um neue Erkenntnisse für die Gesundheitseinrichtungen zu gewinnen und maßgeschneiderte Lösungen zu entwickeln.

Wie kann man sicher mit persönlichen Daten arbeiten?

Bislang hat die DSGVO einen binären Ansatz für die De-Identifizierung gewählt. Daten sind entweder personenbezogene Daten oder anonym. In den Erwägungsgründen der DSGVO Nr. 26 heißt es wie folgt: „Die Grundsätze des Datenschutzes sollten für alle Informationen gelten, die sich auf eine identifizierte oder identifizierbare natürliche Person beziehen. Einer Pseudonymisierung unterzogene personenbezogene Daten, die durch Heranziehung zusätzlicher Informationen einer natürlichen Person zugeordnet werden könnten, sollten als Informationen über eine identifizierbare natürliche Person betrachtet werden. Um festzustellen, ob eine natürliche Person identifizierbar ist, sollten alle Mittel berücksichtigt werden, die von dem Verantwortlichen oder einer anderen Person nach allgemeinem Ermessen wahrscheinlich genutzt werden, um die natürliche Person direkt oder indirekt zu identifizieren, wie beispielsweise das Aussondern.“

Eine wirksame Anonymisierungslösung verhindert, dass alle Beteiligten eine Einzelperson in einem Datensatz herausgreifen, zwei Datensätze innerhalb eines Datensatzes (oder zwischen zwei getrennten Datensätzen) miteinander verknüpfen und auf identifizierbare Informationen innerhalb eines solchen Datensatzes schließen können. Dafür ist es notwendig, mehr als nur die direkt identifizierbaren Informationen zu entfernen, um sicherzustellen, dass die Identifizierung einer betroffenen Person nicht mehr möglich ist.

In bestimmten Fällen der Datenanalyse ist es jedoch wichtig, Teile sensibler Daten aufzubewahren - z. B. die Benutzer-ID -, die sich möglicherweise bis zur einzelnen Patientenakte zurückverfolgen lassen. Streng genommen können solche Daten nicht als vollständig anonym angesehen werden, und es wird der Begriff pseudonym verwendet.

Derzeit gibt es keine universelle Methode, um Daten pseudonym zu machen. Vielmehr erfordert jedes Szenario eine gründliche Bewertung und eine individuell angepasste Mischung von De-Identifizierungsansätzen. In der folgenden Tabelle sind einige dieser Methoden aufgelistet:

  • Randomisierung durch Hinzufügen von Rauschen: Den Daten wird ein Rauschen hinzugefügt, d.h. zum Beispiel werden einigen messbaren Metriken wie Gewicht oder Größe durch ein konsistentes Delta ersetzt. Aus 180 cm Körpergröße könnte 190 cm werden. Das Hinzufügen von Rauschen ist eine ergänzende Maßnahme und kann nicht als zuverlässige oder ausreichende Methode zur Anonymisierung von Daten betrachtet werden.
  • Randomisierung durch Permutation: Bei dieser Technik werden die Werte von Attributen in einer Tabelle so vertauscht, dass einige von ihnen künstlich mit verschiedenen Datensubjekten verknüpft werden. Zum Beispiel kann ein Datensatz, der aus Geburtsjahr, Gewicht und Diagnose besteht, so vertauscht werden, dass die Werte innerhalb der Kategorie gespeichert werden, aber die Verbindungen zwischen den Kategorien verloren gehen. Auch die Permutation ist nur eine ergänzende Maßnahme.
  • Generalisierung: Bei diesem Ansatz wird die Granularität der Daten auf aggregierte Bezeichnungen reduziert: zum Beispiel wird die Stadt durch die Region ersetzt oder das tatsächliche Alter durch die Altersgruppen. Normalerweise eine zuverlässige Technik, es ist jedoch immer noch möglich, eine Person zu identifizieren, wenn bestimmte aggregierte Datensätze bekannt sind oder es einige Grenzfälle gibt. Wenn man zum Beispiel weiß, dass eine Person 100 Jahre alt ist und in München lebt, könnte man diesen Datensatz aus einem aggregierten Datensatz mit einer Altersgruppe von 90-100 Jahren und der Region Bayern identifizieren.
  • Pseudo-Anonymisierung durch Hashing: Entspricht einer Funktion, die aus einer Eingabe beliebiger Größe (die Eingabe kann ein einzelnes Attribut oder ein Satz von Attributen sein) eine Ausgabe fester Größe liefert und nicht umgekehrt werden kann. Zum Beispiel wird Jane Smith in eine nicht lesbare Zeichenkette gleicher Länge mit Zeichen, Symbolen und Ziffern verschlüsselt. Hashing ist eine bewährte Sicherheitsmaßnahme. Es besteht jedoch das Risiko, dass jemand die Logik der Hash-Funktion innerhalb des Datensatzes ausnutzt.
  • Pseudonymisierung durch Verschlüsselung mit einem geheimen Schlüssel: Der Inhaber des Schlüssels kann jede betroffene Person durch Entschlüsselung des Datensatzes trivialerweise wieder identifizieren, da die personenbezogenen Daten immer noch im Datensatz enthalten sind. Zum Beispiel wird Jane Smith in eine nicht lesbare Zeichenfolge aus Buchstaben, Symbolen und Ziffern verschlüsselt. Dies ist eine gültige Sicherheitsmaßnahme. Wenn jedoch ein Hacker Zugriff auf den Schlüssel erhält, können die Daten wiederhergestellt werden.

Die Techniken und Methoden zur De-Identifizierung von Daten bergen immer noch ein gewisses Risiko, dass einzelne Personen letztendlich identifiziert werden können. Eine zusätzliche Ebene des Datenschutzes kann durch eine Kombination von technologischen, organisatorischen und rechtlichen Maßnahmen erreicht werden. Zu einer angemessenen Datenverwaltung gehören:

  • Eine Zugriffs- und Berechtigungspolitik mit einer angemessenen Authentifizierung der Personen, die auf die Daten zugreifen,
  • Definition von Aufbewahrungsrichtlinien,
  • Mechanismen zur Löschung der Daten auf Anfrage,
  • Schulung und Aufklärung des Personals über die Grundsätze der Datenverwaltung und des Datenschutzes,
  • Einholung der Zustimmung der Benutzer, die den Betroffenen den Zweck der Datenerhebung und ihre Verwendung klar darlegt, und andere.

Auf der nächsten Seite: Anonymisierte Daten für Produktanalysen

Jetzt Newsletter abonnieren

Wöchentlich die wichtigsten Infos zur Digitalisierung im Gesundheitswesen

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

(ID:49265289)