Graphtechnologie am DZD Datenzugriff und Datenschutz schließen sich nicht aus

Von Susanne Ehneß 5 min Lesedauer

Anbieter zum Thema

Im Deutschen Zentrum für Diabetesforschung e. V. (DZD) forschen rund 450 Experten auf nationaler Ebene disziplinübergreifend an Präventions- und Behandlungsmaßnahmen für Diabetes. Dr. Martin Preusse, Head of Data and Knowledge Management beim DZD, erzählt, wie Graphtechnologie die Wissenschaftler dabei unterstützen kann.

Graphtechnologie: „Personen, Dinge, Orte oder Ereignisse sind als Knoten, die Beziehungen dazwischen als Kanten dargestellt. Das ist eine sehr intuitive Art, um über Daten zu sprechen.“(©  skegbydave, Getty Images via Canva.com)
Graphtechnologie: „Personen, Dinge, Orte oder Ereignisse sind als Knoten, die Beziehungen dazwischen als Kanten dargestellt. Das ist eine sehr intuitive Art, um über Daten zu sprechen.“
(© skegbydave, Getty Images via Canva.com)

Eine der Kernaufgaben des DZDs ist es, klinische Forschung und Grundlagenforschung näher zusammenzubringen. Welche Rolle übernimmt dabei die Lösung DZDconnect?

Preusse: Das Ziel des DZDs ist es, Diabetes aus unterschiedlichen Blickwinkeln heraus zu erforschen. Dafür brauchen die Mitarbeitenden einen disziplin-, spezies- und datentypübergreifenden Zugriff auf Daten. Das klingt vielleicht simpel. Aber der Zugriff auf umfassende Daten ist tatsächlich eine der größten Herausforderungen in der medizinischen Forschung. Das Datenvolumen wächst kontinuierlich. Zudem beschränkt sich die Diabetesforschung nicht auf einen Fachbereich, sondern bezieht andere Krankheiten – zum Beispiel Schlaganfall, Herzinfarkt, Krebs und Alzheimer – mit ein.
Deswegen haben wir uns bereits 2017 entschieden, ein standortübergreifendes Datenmanagement auf Basis eines Knowledge Graphen aufzubauen. Mit DZDconnect besitzen wir eine skalierbare Wissensdatenbank, in der wir interne Daten aus Studien mit externen Weltwissen verbinden und unseren Wissenschaftlern zentral zur Verfügung stellen. Die Graphdatenbank Neo4j liegt dabei als Layer über den relationalen Datenbanken und verknüpft die Systeme und Datensilos der Gesundheitszentren.

Dr. Martin Preusse(©  DZD)
Dr. Martin Preusse
(© DZD)

Mit welchen Daten können die Mitarbeiter des DZD in diesem Wissenshub arbeiten?

Preusse: In der Anfangsphase überführten wir vor allem Metadaten aus klinischen Studien in das Graph-Datenmodel. Damit konnten wir sehr schnell grundlegende Fragen beantworten. Wie viele Blutproben liegen von bestimmten Patienten-Clustern vor? Aus welchen Studien stammen welche Proben? Und welche Parameter wurden überhaupt gemessen?
Später ergänzten wir diesen Datenpool mit Forschungsdaten aus öffentlichen Quellen wie der Literaturdatenbank PubMed. Für einen einzelnen Forscher ist es nämlich unmöglich, alle Veröffentlichungen zu lesen, die in den Fachpublikationen weltweit erscheinen. Daher nutzen wir Natural Language Processing (NLP), um die Texte zu verarbeiten: Algorithmen führen eine semantische Analyse durch, identifizieren relevante Informationen und legen diese als neue Entitäten im Graphen ab. Momentan umfasst DZDconnect rund 1,8 Milliarden Knoten und 4,9 Milliarden Kanten.

Wo sehen Sie die Vorteile von Knowledge Graphen im wissenschaftlichen Umfeld?

Preusse: Bei Graphtechnologie kann man viel über die hohe Performance bei Abfragen und die Skalierbarkeit sprechen. Aber für mich ist der größte Vorteil, dass Daten in einem Knowledge Graphen an Abstraktheit verlieren. Stattdessen werden sie greifbar. Das mag man als „Softskill“ einer Technologie abtun. Aber in meiner Arbeit am DZD kann ich das immer wieder beobachten: Alle an einem Projekt Beteiligten können direkt auf die Daten schauen und sie auch verstehen.
Ein Graph ist ein logisches Modell, das Zusammenhänge in der realen Welt beschreibt, genau so abgebildet, wie ich es als Wissenschaftler mir auch in meinem Kopf vorstelle. Personen, Dinge, Orte oder Ereignisse sind als Knoten, die Beziehungen dazwischen als Kanten dargestellt. Das ist eine sehr intuitive Art, um über Daten zu sprechen und sie zu teilen. Zumal unsere Mitarbeitenden zwar absolute Experten auf ihrem Fachgebiet, aber nicht automatisch Data Scientists oder Statistiker sind.
Und schließlich lassen sich in Graphdatenbanken neue Daten über das Knoten-Kanten-Prinzip jederzeit hinzuzufügen. Die medizinische Forschung produziert am laufenden Band neue Ergebnisse. Daher ist diese Flexibilität sehr praktisch.

Im vergangenen Jahr ist auch der Knowledge Graph im DZD weiter gewachsen – unter anderem um Patientendaten aus klinischen Studien. Können Sie uns dazu mehr erzählen?

Preusse: Ja, das stimmt. Das DZD hat in Kooperation sowohl mit Unikliniken als auch mit akademischen Einrichtungen mehrere große klinische Studien durchgeführt. Dabei ging es um unterschiedliche Forschungsfragen. Im Bereich Diabetes Lifestyle Intervention wurde zum Beispiel die Frage untersucht, inwiefern Intervallfasten tatsächlich gegen Diabetes schützt. In anderen Studien ging es darum, die Wirksamkeit bei bestimmte Kombinationen von Medikamenten zu messen.
Je nach Umfang der Studien werden mit den Probanden 50, 60 oder sogar 100 Tests durchgeführt, Blutproben entnommen und Werte gemessen. Und diese Daten können wir nun zukünftig aktiv nutzen – und zwar nicht nur in Form von Metadaten, sondern als „echte Patientendaten“.
Das ist unfassbar wertvoll für uns und die Arbeit am DZD. Die Nutzung von Patientendaten ist nämlich häufig an viele Hürden geknüpft, allen voran stringenten Datenschutzbestimmungen. Hier mussten wir also viel Arbeit investieren, um Einverständniserklärungen der Patienten einzuholen und die Daten sicher von A nach B zu bewegen.

Auf der nächsten Seite: Datenschutz, Künstliche Intelligenz.

(ID:49862747)

Jetzt Newsletter abonnieren

Wöchentlich die wichtigsten Infos zur Digitalisierung im Gesundheitswesen

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung