Synthetic Data Mit KI gegen die klinische Datenlücke

Von Andreas Effinger Lesedauer: 5 min |

Anbieter zum Thema

Unzureichender Datenzugang verhindert Innovation im Gesundheitswesen und in der Pharmaindustrie. Synthetische Daten können die Lösung sein – wenn sie qualitätsgesichert erzeugt und gehalten werden. Erste Beispiele aus der Praxis zeigen Erfolge.

Synthetische Daten sind künstlich erzeugte Daten, die die Eigenschaften von realen Daten nachahmen.
Synthetische Daten sind künstlich erzeugte Daten, die die Eigenschaften von realen Daten nachahmen.
(Bild: tippapatt – stock.adobe.com)

Das Gesundheitswesen steht in einem Punkt vor der gleichen Herausforderung wie die restliche Wirtschaft: Ohne Massendaten ist kaum noch Innovation realisierbar. Kliniken, Forschungseinrichtungen und die pharmazeutische Industrie sind auf große Mengen von Gesundheitsdaten angewiesen, um effizient neue Therapieformen zu entwickeln und zu testen. Eingebettete künstliche Intelligenz (KI), Bildanalyse und maschinelles Lernen sind nur einige Beispiele für hochaktuelle Technologien, mit denen integrierte Daten für verbesserte klinische Entscheidungen nutzbar gemacht werden können. Die Analyse von Daten aus Geräten der Medizintechnik im Echtzeit-Datenstrom (IoMT) kann zudem über eine patientenorientierte Gesundheitsversorgung hinaus mittelfristig Forschung und Lehre unterstützen.

Bei Gesundheitsdaten handelt es sich allerdings fast immer um hochsensible personenbezogene Informationen. Deshalb sind der Datennutzung Risiken für eine Verletzung der Privatsphäre von Patienten inhärent, verstärkt durch unzureichende Datenschutzmechanismen.

Bisher sind im Umgang mit diesen Daten klassische Anonymisierungsverfahren wie Verallgemeinerung, Pseudonymisierung oder Unterdrückung (Wiping) gängig. Ein Nachteil ist allerdings, dass diese Methoden immer noch auf einer 1-zu-1-Beziehung mit den Originaldaten basieren. Es bleibt aus Sicht des Datenschutzes also immer ein Restrisiko – das angesichts der Vielzahl an heute verfügbaren Techniken zur Datenverarbeitung und offenen Datensätzen noch weiter steigt. Zudem werden im Zuge der Datenmanipulation wichtige Informationen zerstört, was der Qualität von Vorhersagen abträglich ist.

Synthetische Daten als statistisch gleichwertiger Ersatz

Sogenannte synthetische Daten können helfen, den Widerspruch zwischen Erkenntnisinteresse und Datenschutz aufzulösen. Dabei handelt es sich um künstlich erzeugte Daten, für die KI-Algorithmen auf Originaldatensätzen trainiert werden. Die statistischen Eigenschaften der ursprünglichen Daten bleiben erhalten – dank differenzieller Privatsphäre (gezielte Verrauschung von Algorithmen und Analysen) enthalten die Daten aber keine realen Informationen mehr über Patienten, eine Rückverfolgung ist daher weitgehend unmöglich. Gleichzeitig behalten die Daten trotz dieser Abstraktion ihren wissenschaftlichen und medizinischen Nutzen. Im Vergleich zeigt sich, dass mit synthetischen Daten trainierte Modelle eine ähnlich hohe Genauigkeit erreichen wie mit Originaldaten trainierte – und sie sind wesentlich besser als diejenigen, die mit anonymisierten Daten trainiert wurden.

Vorteile synthetischer Daten
Überblick
  • Höherer Datenschutz: Realistische, aber künstliche Patientendaten ohne personenbezogene Informationen ermöglichen Analysen, ohne Richtlinien oder das Vertrauen der Erkrankten zu kompromittieren.
  • Data Sharing & Kollaboration: Das Teilen von Daten zu Fragen aus dem Gesundheitswesen zwischen Unternehmen, Forschungseinrichtungen und sonstigen Organisationen wird erleichtert. Es steht ein umfassender Datenpool für die Analyse, Forschung und Entwicklung innovativer Healthcare-Lösungen bereit.
  • Innovationsfähigkeit: Forschern und Entwicklern stehen größere Mengen an Daten mit einer höheren Vielfalt zur Verfügung – die Voraussetzung für Simulationen, Testen und Analysen. Forschung und Innovation in Bereichen wie Arzneimittelentwicklung, Therapieplanung und Krankheitsprognosen lassen sich damit beschleunigen.
  • Belastbare Aussagen: Dank ihrer Repräsentativität und Vielfalt erlauben synthetische Daten die Erstellung und das Testen von Healthcare-Modellen in unterschiedlichsten Szenarien. Diese liefern präzisere Ergebnisse und lassen sich besser übertragen.
  • Ausbildung: Realistische Fallstudien und Szenarien unterstützen das Training für Mitarbeitende im Gesundheitswesen, darunter Ärzte, Pflegepersonal und Medizinstudenten.

Abrechnungsdaten für die Forschung

Ein konkretes Beispiel, wie synthetische Daten eingesetzt werden könnten, zeigt das Projekt „Künstliche Intelligenz am Forschungsdatenzentrum – Erforschung von Anonymisierungsmöglichkeiten und AI-Readiness“ des Forschungsdatenzentrums Gesundheit (FDZ) am Bundesinstitut für Arzneimittel und Medizinprodukte (BfArM): Hier sollen Abrechnungsdaten, beispielsweise zu Diagnosen, Therapien und Kosten, die der Spitzenverband Bund der Krankenkassen pseudonymisiert an das FDZ übermittelt, Forschenden zur Verfügung gestellt werden. Ein Vorteil dieser allgemeinen Informationen ist, dass sie sich – im Vergleich zu Studiendaten – einfacher auf die Gesamtbevölkerung übertragen lassen. Parallel wird im Rahmen des Projektes getestet, ob hierfür künftig synthetische Daten als hochwertige Alternative zu den anonymisierten Originaldaten genutzt werden könnten.

Auf der nächsten Seite: Use Cases

(ID:49776922)

Jetzt Newsletter abonnieren

Wöchentlich die wichtigsten Infos zur Digitalisierung im Gesundheitswesen

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung