Die Forschung in Deutschland ist zu wenig vernetzt und datengetrieben. So lautet ein erstes Fazit des Wissenschaftsrats zur COVID-19-Pandemie. Der große Erfolg in der Impfstoffentwicklung dürfe nicht über deutliche Schwächen im deutschen Wissenschaftssystem hinwegtäuschen. Das betrifft unter anderem die Vernetzung und das Management von Daten. Graphtechnologie und Knowledge Graphen eröffnen hier neue Wege für die Forschung.
Der Nachholbedarf beim Datenmanagement in der Gesundheitsforschung hat mehrere Gründe. Medizinische Daten, egal ob aus der Grundlagenforschung, klinischen Studien, Fachpublikationen oder internationalen Forschungsvorhaben, sind in der Regel heterogen und unstrukturiert. Die Informationen liegen als Text vor, aber auch als Bild- und Videodatei oder in Formeln, Kurven und Diagrammen.
Nicht alle Daten sind gleich aufbereitet. Messgeräte, Methoden und Standards unterscheiden sich je nach Forschungseinrichtung. Wissenschaftler forschen größtenteils unabhängig voneinander. Und schließlich blicken viele Organisationen auf jahrzehntelange Forschungsarbeit zurück, deren Daten zunächst normalisiert werden müssen, ehe Vergleiche und Analysen möglich sind. Das alles macht es schwierig, Daten zu verknüpfen und in einen standort-, disziplin-, spezies- oder datenübergreifenden Kontext zu stellen.
Eine weitere Herausforderung ist die Menge an Daten, die massiv und in immer schnellerem Tempo wächst. Nur als Beispiel: Die COVID-19 Open Research Datenbank (CORD-19) zählte im März 2020 bereits über 44.000 wissenschaftliche Artikel. Mittlerweile sind es mehr als 280.000, und ein Ende ist nicht in Sicht.
Wer solche Datenberge in öffentlich zugänglichen Datenquellen und Literaturdatenbanken für sich nutzen will, hat also erst einmal alle Hände voll zu tun, um den dort vergrabenen Wissensschatz sicher zu bergen. Innerhalb von Einrichtungen sieht es oft kaum besser aus. Hier hindern historisch gewachsene Datensilos die Wissenschaftler daran, schnell, frei und unkompliziert auf relevante Daten zuzugreifen.
Speichern und abfragen
Wie lassen sich solche Aufgaben lösen und Daten besser nutzen? Herkömmliche Datenmanagement-Tools bieten darauf nur wenig Antworten. Schon allein deshalb nicht, weil diese Systeme in der Regel nicht darauf ausgelegt sind, Wissen in Form von vernetzten Daten zu speichern und Zusammenhänge offenzulegen. Am deutlichsten zeigt sich das in relationalen Datenbanken. Sie speichern Informationen in Spalten und Tabellen.
Sucht man nach Verbindungen zwischen den Daten, sind sogenannte Joins nötig, die sehr aufwändig, zeitintensiv und damit teuer sein können. Je größer und unstrukturierter die Datenmengen, desto schneller stoßen diese Systeme an ihre Grenzen.
Dass es auch anders geht, beweist Graphtechnologie. In sogenannten Knowledge Graphen werden Daten als „Knoten“ gespeichert, die über „Kanten“ miteinander verbunden sind. Sowohl Knoten als auch die Kanten können mit Eigenschaften versehen und analysiert werden. Heterogene Daten aus unterschiedlichen Quellen werden dabei in einer Gesamtansicht verknüpft.
Mittels Text Mining-Verfahren lassen sich Daten extrahieren und ins Graphmodell überführen
Es entsteht ein semantischer Kontext, ähnlich einer Mind-Map, in dem neue Zusammenhänge, Muster und Auffälligkeiten schnell ersichtlich sind. So lassen sich beispielsweise komplexe Prozesse, Stoffwechselwege, Gene oder Proteine bildhaft visualisieren. Wissenschaftler können Verknüpfungen über mehrere Knoten hinweg folgen, in Datengruppen eintauchen und sich frei in alle Richtungen vor und zurück bewegen – investigatives Forschen im wahrsten Sinne des Wortes.
Wissensdatenbank für die Diabetesforschung
Genau aus diesem Grund entwickelte das Deutsche Zentrum für Diabetesforschung (DZD) einen Knowledge Graphen, der eine Art „Gelbe Seiten“ der Diabetesforschung darstellt. In der zentralen Wissensdatenbank DZDconnect sind Metadaten aus klinischen Studien mit disziplinübergreifenden Forschungsdaten aus öffentlichen Quellen verknüpft. Dazu gehören neben der Genetik und Proteomik auch Daten zu Folge- oder Nebenerkrankungen wie Schlaganfall, Herzinfarkt, Krebs oder Alzheimer. Humane Daten aus der klinischen Forschung werden um hochstandardisierte Daten aus Tiermodellen (z. B. Mäuse) ergänzt. So erhoffen sich die Forscher, Rückschlüsse von Modellorganismus auf das humane System ziehen zu können und Ähnlichkeiten bei einzelnen Genen und Stoffwechselvorgängen aufzudecken.
Der Knowledge Graph liegt dabei als Layer über den bestehenden Datenbanken und fungiert als standortübergreifende Anlaufstelle für Healthcare und Medical Professionals des DZDs. Der Vorteil: Abfragen lassen sich nicht nur deutlich schneller stellen. Auch die Fehleranfälligkeit beim Extrahieren und Aggregieren von Daten aus unterschiedlichen Quellen sinkt. Die Vielfältigkeit und Detailtiefe erlaubt einen neuen Blickwinkel auf wissenschaftliche Fragestellungen.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel Communications Group GmbH & Co. KG, Max-Planckstr. 7-9, 97082 Würzburg einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von redaktionellen Newslettern nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung, Abschnitt Redaktionelle Newsletter.
Daten der Diabetesforschung in einer zentralen Wissensdatenbank
Mit Hilfe integrierter Graph-Algorithmen wie Community-Detection kann das DZD zum Beispiel neue Patienten-Cluster identifizieren. Ziel ist es, die verschiedenen Subtypen des Typ-2-Diabetes zu erforschen und neue Erkenntnisse für die Prävention und Therapie zu gewinnen (Stichwort: Precision Medicine).
Medikamente schneller entwickeln
Auch die Pharmaindustrie setzt auf Knowledge Graphen, zum Beispiel wenn es um die Entwicklung neuer Medikamente geht. Das Schweizer Biotechnologie- und Pharmaunternehmen Novartis nutzt die Technik, um seine rund eine Milliarde historischen Datensätze aus der Grundlagenforschung weiter nutzen zu können. Ziel war es, die Daten im Kontext der weltweiten medizinischen Forschung sowie vor dem Hintergrund neu erhobener Daten zu analysieren.
Dabei wächst die Zahl der Daten täglich weiter an. Über automatisierte Verfahren werden Bilddaten erfasst und die Wechselwirkung von medizinischen Wirkstoffen und therapeutischen Angriffspunkten („Targets“) untersucht. So entstehen Terabytes an phänotypischen Daten. Hinzu kommen rund 25 Millionen Texte aus über 5.600 wissenschaftlichen Zeitschriften aus der PubMed der National Institutes of Health (NIH), die mit Hilfe von Text Mining-Verfahren analysiert und extrahiert werden.
Alle diese Informationen bündelt Novartis in einem Knowledge Graphen, wo sie in 15 Knoten-Kategorien und 90 möglichen Beziehungstypen sauber und akkurat abgelegt sind. Die ganzheitliche Abbildung des biologischen Gesamtwissens von Novartis erlaubt es den Forscherteams, frei im Dreieck aus Krankheit-Target-Wirkstoff zu navigieren und Medikamente schneller auf den Weg zu bringen.
microRNA-Tests
Ein anderes Beispiel für den Einsatz von Knowledge Graphen kommt vom US-amerikanischen Biotechnologieunternehmen Miroculus. Das Unternehmen entwickelte eine digitale Mikrofluidik-Plattform, die es Wissenschaftlern und medizinischem Personal ermöglicht, Krankheiten wie Magenkrebs mit Hilfe von microRNAs zu erkennen. Um die spezifischen microRNA-Biomarker zu isolieren, müssen Forscher die Daten kontinuierlich aktualisieren und auf dem neuesten Stand der Wissenschaft halten. Eine Aufgabe, die angesichts der schieren Menge an Texten, Fachpublikationen und Studien ohne smarte und automatisierte Tools nicht mehr zu bewältigen ist.
Mit Hilfe von Natural Language Processing (NLP) extrahiert Miroculus relevante Daten aus über einer Milliarde Fachartikeln und integriert sie in den Knowledge Graph. Dabei führen Algorithmen semantische Analysen der Texte durch, klassifizieren relevante Entitäten und verknüpfen sie direkt mit Informationen in der Datenbank. Basierend auf einem Machine-Learning-Modell lassen sich Beziehungen zwischen relevanten Schlüsselwörtern und Themen herstellen. Damit läuft die Datenmigration in den Graphen automatisiert ab.
Technologien rund um Knowledge Graphen, NLP und ML entwickeln sich zu Schlüsselfaktoren in der digitalen Transformation des Wissenschaftssystems. Sie automatisieren Prozesse, eröffnen einen neuen, holistischen Blick auf unstrukturierte Daten und können langfristig die Forschungspraxis von Ärzten und Wissenschaftlern revolutionieren. Forschung fokussiert sich dann nicht mehr länger auf das Generieren und Sammeln von Daten, sondern auf den dadurch erworbenen Wissensvorsprung im Kampf gegen Krankheiten.
*Der Autor: Dirk Möller, Area Director of Sales CEMEA beim Graphdatenbanken-Anbieter Neo4j