Neuartige KI-Technologie zur kooperativen Analyse von Big Data Einsatz für Blockchain und KI: Schwarm-Learning für die Blutkrebsforschung
Das Deutschen Zentrum für neurodegenerative Erkrankungen (DZNE) und Hewlett Packard Enterprise (HPE) haben in einem gemeinsamen Projekt ein Verfahren erprobt, das als „Lernen im Schwarm“ bezeichnet wird und von Hewlett-Packard Enterprise (HPE) entwickelt wurde. Es lässt sich in verschiedenen Anwendungsszenarien einsetzen, in denen man Erkenntnisse und „Intelligenz“ teilen muss, die Daten aber vertraulich bleiben sollen.
Anbieter zum Thema

Der Clou daran: Verteilte Forscherteams trainieren zunächst KI-Algorithmen mit lokalen Informationen, um Krankheiten wie Blutkrebs, Tuberkolose oder Covid-19 zu erkennen. Im Projekt haben die Algorithmen ihre Erkenntnisse miteinander auf Basis eines dezentralen Blockchain-Verfahrens geteilt – und zwar, ohne dabei Patienten-Daten auszutauschen.
Die Projektteilnehmer haben nachweisen können, dass mit diesem Verfahren deutlich bessere Ergebnisse erzielt werden, als wenn die KI-Algorithmen separat trainiert werden. 'Swarm Learning' lässt sich aber auch auf andere Lebensbereiche übertragen, zum Beispiel autonomes Fahren, in der Robotic und Smart Cities.
In der vergangenen Woche ist nun das Projekt des DZNE und HPE im Wissenschafts-Journal „Nature“ worden. Hier hat das internationales Forschungsteam aus DZNE-Fachleuten, der Universität Bonn, von HPE und weiterer Forschungseinrichtungen aus Griechenland, den Niederlanden und Deutschland – darunter Mitglieder der „German COVID-19 OMICS Initiative“ (DeCOI) Algorithmen der künstlichen Intelligenz darauf trainiert, in dezentral gelagerten Datenbeständen Blutkrebs, Lungenerkrankungen und COVID-19 zu erkennen.
Natürlich: Sicherheit
Von vorneherein hat dieser Ansatz gegenüber herkömmlichen Verfahren den Vorteil, dass Anforderungen des Datenschutzes gleichermaßen von Haus aus erfüllt werden, was die standortübergreifende Analyse wissenschaftlicher Daten vereinfacht.
Beim Swarm Learning bleiben sämtliche Forschungsdaten vor Ort. Ausgetauscht werden nur Algorithmen und Parameter – gewissermaßen Erfahrungswerte. Joachim Schultze, Direktor für Systemmedizin am DZNE und Professor am Life & Medical Sciences-Institut (LIMES) der Universität Bonn, sagt: „Swarm Learning erfüllt die Vorgaben des Datenschutzes auf natürliche Weise.“
Swarm Learning könnte daher die Zusammenarbeit und den Informationsaustausch in der Forschung, insbesondere im Bereich der Medizin, maßgeblich fördern und beschleunigen. Denn: Wissenschaft und Medizin werden zunehmend digitaler. Die Analyse der dabei anfallenden Informationsmengen – „Big Data“ genannt – gilt als ein Schlüssel zu besseren Behandlungsoptionen.
Schulze schwärmt: „Medizinische Forschungsdaten sind ein Schatz. Sie können entscheidend dazu beitragen, personalisierte Therapien zu entwickeln, die passgenauer als herkömmliche Behandlungen auf jeden Einzelnen zugeschnitten sind. Für die Wissenschaft ist es wichtig, dass sie solche Daten so umfassend und von so vielen Quellen wie möglich nutzen kann.“
Allerdings unterliegt der Austausch medizinischer Forschungsdaten über Standorte oder gar Ländergrenzen hinweg den Anforderungen des Datenschutzes und der Datenhoheit. Diese Auflagen lassen sich in der Praxis meist nur mit erheblichem Aufwand umsetzen.
Zudem gibt es technische Hürden: Etwa wenn gewaltige Datenmengen digital übermittelt werden sollen, können Datenleitungen schnell an Leistungsgrenzen stoßen. Angesichts dieser Bedingungen sind viele medizinische Studien lokal beschränkt und können Daten, die andernorts vorliegen, nicht verwerten.
Wie funktioniert Lernen im Schwarm?
Das verteilte Lernen kombiniert eine Form des Informationsaustausches über verschiedene Knoten eines Netzwerkes hinweg mit Methoden aus dem Werkzeugkasten des „maschinellen Lernens“, einem Teilbereich der Künstlichen Intelligenz (KI). Dreh- und Angelpunkt des maschinellen Lernens sind Algorithmen, die an Daten trainiert werden, um darin Gesetzmäßigkeiten aufzuspüren – und infolgedessen die Fähigkeit erwerben, die gelernten Muster auch in anderen Daten zu erkennen.
Anders jedoch als beim „Federated Learning“, bei dem die Daten ebenfalls lokal verbleiben, gibt es keine zentrale Kommandostelle, erläutert der Bonner Wissenschaftler. „Swarm Learning geschieht kooperativ anhand von Regeln, auf die sich alle Partner vorab verständigt haben. Dieses Regelwerk wird in einer Blockchain festgehalten.“
Hierbei handelt es sich um eine Art digitales Protokoll, das den Informationsaustausch zwischen den Parteien verbindlich regelt, sämtliche Ereignisse dokumentiert und das alle Beteiligten einsehen können. „Die Blockchain ist das Rückgrat des Swarm Learning“, so Schultze. „Alle Mitglieder des Schwarms sind gleichberechtigt. Es gibt keine zentrale Macht über das Geschehen und die Ergebnisse, also gewissermaßen keine Spinne, die das Datennetz kontrolliert.“
Die KI-Algorithmen lernen somit lokal, nämlich anhand der Daten, die am jeweiligen Netzwerkknoten vorliegen. Die Lernerfolge jedes Knotens werden in Form von Parametern über die Blockchain gesammelt und verarbeitet. Aller Beteiligten erhalten die daraufhin optimierten Parameter. Dieser Ablauf wiederholt sich mehrfach, wodurch sich die Fähigkeit der Algorithmen Muster zu erkennen nach und nach verbessert – und zwar an jedem Knoten des Netzwerkes.
Lungenbilder und molekulare Merkmale
Den Praxisbeweis dafür liefern die Forschenden nun anhand der Analyse von Röntgenbildern der Lunge und so genannter Transkriptome: Bei Letzteren handelt es sich um Daten zur Genaktivität von Zellen. In der aktuellen Studie ging es konkret um Immunzellen, die im Blut zirkulieren – also um weiße Blutkörperchen.
„Daten der Genaktivität von Blutzellen sind wie ein molekularer Fingerabdruck. Sie enthalten wichtige Informationen darüber, wie der Organismus auf eine Erkrankung reagiert“, erörtert Schultze. „Transkriptome liegen genauso wie Röntgenbilder in großer Menge vor und sie sind hochkomplex. Genau die richtige Art von Informationen für eine Analyse mit künstlicher Intelligenz. Solche Daten sind ideal, um Swarm Learning zu testen.“
Insgesamt hat sich das Forschungsteam vier infektiöse und nicht-infektiöse Erkrankungen vorgenommen: zwei Varianten von Blutkrebs, Akute Myeloische Leukämie und Akute Lymphoblastische Leukämie, Tuberkulose und COVID-19. Die Daten umfassten insgesamt mehr als 16.000 Transkriptome. Das Swarm-Learning-Netzwerk, über das die Daten verteilt waren, hat in der Regel aus mindestens drei und bis zu 32 Knoten bestanden.
Unabhängig von den Transkriptomen haben die Forschenden rund 100.000 Röntgenbilder des Brustkorbs analysiert. Diese stammten von Patienten mit Flüssigkeitsansammlungen in der Lunge oder anderen pathologischen Befunden sowie von Personen ohne Auffälligkeiten. Diese Datensind über drei verschiedene Knoten verteilt gewesen.
Hohe Trefferquote
Die Analyse sowohl der Transkriptome wie auch der Röntgenbilder sind dem gleichen Prinzip gefolgt: Zunächst haben die Forschenden ihre Algorithmen mit Teilmengen des jeweiligen Datensatzes gefüttert. Dazu gehören auch die Information, welche der Proben von Patienten stammen und welche von Personen ohne Befund.
Mit der so erlernten Mustererkennung für „krank“ beziehungsweise „gesund“ haben dann weitere Daten klassifiziert werden können, das heißt: eingeteilt in Proben mit oder ohne Erkrankung. Die Treffsicherheit, also die Fähigkeit der Algorithmen zwischen gesunden und erkrankten Personen zu unterscheiden, hat bei den Transkriptomen im Durchschnitt - jede der vier Erkrankungen ist separat ausgewertet worden) bei rund 90 Prozent gelegen, im Falle der Röntgendaten von 76 bis 86 Prozent.
Schultze kommentiert die Ergebnisse „Das Verfahren hat am besten bei Leukämie funktioniert. Hier ist die Signatur der Genaktivität besonders auffällig und somit für künstliche Intelligenz am einfachsten zu erkennen. Infektionserkrankungen sind variabler.“ Dennoch sei die Treffsicherheit bei Tuberkulose und COVID-19 ebenfalls sehr hoch gewesen. Bei den Röntgendaten hat die Quote etwas niedriger gelegen, was laut Schulze, mit der geringeren Daten- beziehungsweise Bildqualität zusammenhängt.
Die Ergebnisse und der Ausblick
Schulze fasst zusammen: „Unsere Studie belegt somit, dass sich Swarm Learning auf ganz unterschiedliche Daten erfolgreich anwenden lässt. Prinzipiell gilt das für jede Art von Information, bei der eine Mustererkennung anhand künstlicher Intelligenz sinnvoll ist. Seien es Genomdaten, Röntgenaufnahmen, Bilddaten aus dem Hirnscanner oder andere komplexe Daten.“
Die Studie habe zudem bewiesen, dass Swarm Learning deutlich bessere Ergebnisse liefert, als wenn die Knoten des Netzwerkes unabhängig voneinander lernten. Er erklärt es wie folgt: „Jeder Knoten profitiert von den Erfahrungswerten der anderen Knoten, obwohl immer nur lokale Daten zur Verfügung stehen. Das Konzept des Swarm Learning hat damit den Praxistest bestanden.“
„Ich bin davon überzeugt, dass Swarm Learning der medizinischen Forschung und anderen datengetriebenen Disziplinen einen enormen Schub geben kann. Die aktuelle Studie war nur ein Testlauf. Künftig wollen wir diese Technologie auf Alzheimer und andere neurodegenerative Erkrankungen anwenden“, so Schultze. „Swarm Learning hat das Potential eines echten Gamechangers und könnte helfen, den Erfahrungsschatz der Medizin weltweit zugänglicher zu machen. Nicht nur Forschungseinrichtungen, auch beispielsweise Krankenhäuser könnten sich zu solchen Schwärmen zusammenschließen und damit Informationen zum gegenseitigen Nutzen austauschen.“
Dieser Beitrag erschien zuerst auf unserem Schwesterportal Datacenter Insider.
Artikelfiles und Artikellinks
(ID:47445513)