Spezialisiertes Sprachmodell Forschungsteam bringt LLM bei, „DNA zu sprechen“

Von Stephan Augsten 2 min Lesedauer

Anbieter zum Thema

Wie können wir ein tieferes Verständnis für DNA-Sequenzen, ihre Regeln und Zusammenhänge entwickeln? An der Technischen Universität Dresden wurde hierfür das spezialisierte Large-Language-Modell „GROVER“ mit einem Referenz-Humangenom trainiert.

Das Large-Language-Model GROVER hat unter anderem gelernt, DNA-Sequenzen vorherzusagen.(©  sdecoret - stock.adobe.com)
Das Large-Language-Model GROVER hat unter anderem gelernt, DNA-Sequenzen vorherzusagen.
(© sdecoret - stock.adobe.com)

Mit „GROVER“ („Genome Rules Obtained via Extracted Representations“) hat ein Team am Biotechnologischen Zentrum (BIOTEC) der Technischen Universität Dresden ein auf DNS spezialisiertes großes Sprachmodell (Large Language Model, LLM) entwickelt. Einer Veröffentlichung in der „Nature Machine Intelligence“ zufolge besitze das Sprachmodell das Potenzial, die Genomik zu revolutionieren und die personalisierte Medizin voranzutreiben.

Dr. Anna Poetsch, Forschungsgruppenleiterin am BIOTEC, bezeichnet DNA als den „Code des Lebens“: „DNA ähnelt Sprache. Sie besteht aus vier Buchstaben, die Sequenzen bilden, und die Sequenzen tragen eine Bedeutung.“ Warum also sollte man die DNA nicht auch wie eine Sprache behandeln, so die Frage, die sich den Forschenden stellte.

Genome seien in ihrer Struktur, die der Grammatik, Syntax und Semantik ähnelt, mit Sprache vergleichbar, allerdings würden sie sich auch von ihr unterscheiden: „Im Gegensatz zu einer Sprache gibt es [...] kein Konzept für Wörter“, so Dr. Poetsch. Es fehlen also vordefinierte Sequenzen unterschiedlicher Länge, die sich zu Genen oder anderen bedeutungsvollen Sequenzen zusammensetzen. Dr. Melissa Sanabria, die Forscherin hinter dem Projekt, erläutert: „Für die DNA bedeutet dies, die Regeln der Sequenzen zu lernen, die Reihenfolge der Nukleotide und Sequenzen sowie deren Bedeutung.“

Um GROVER darauf vorzubereiten, wandten die Forscher Byte-Pair-Codierung an, um ein ausgewogenes Vokabular, quasi ein DNA-Wörterbuch zu entwickeln. „Ähnlich wie GPT-Modelle menschliche Sprachen lernen, hat GROVER im Grunde gelernt, ‚DNA zu sprechen‘“, so Dr. Sanabria. Auf Grundlage eines Referenz-Humangenoms lernte GROVER dann, indem Teile des Erbguts maskiert wurden und es diese vorhersagen musste. Im Vergleich zu anderen Modellen konnte es DNA-Folgen besser vorhersagen.

„Wir haben das gesamte Genom analysiert und nach Buchstabenkombinationen gesucht, die am häufigsten vorkommen“, beschreibt Dr. Sanabria das Vorgehen. Beginnend mit zwei Buchstaben wurde die DNA immer wieder untersucht, um sie zu den häufigsten mehrbuchstabigen Kombinationen aufzubauen. „Auf diese Weise haben wir in etwa 600 Zyklen die DNA in ‚Wörter‘ fragmentiert, die es GROVER ermöglichen, die nächste Sequenz am besten vorherzusagen“, erklärt .

Das Team zeigte, dass GROVER nicht nur die folgenden DNA-Sequenzen präzise vorhersagen kann, sondern sich auch dafür eignet, Informationen biologischer Bedeutung aus Kontext zu extrahieren. So ließen sich beispielsweise der Start von Genen oder auch Proteinbindungsstellen auf der DNA identifizieren. In einem Promotor-Suchtest lokalisierte GROVER die Startstellen der DNA-zu-RNA-Übersetzung (Transcription Start Site, TSS) in 63 Prozent der Fälle korrekt, das zweitbeste Modell kam im Vergleich dazu auf eine Genauigkeit von 52 Prozent.

Die Forscher hoffen, durch Analyse des von GROVER Gelernten weitere Erkenntnisse über die genetischen Codes zu gewinnen. So könnte ein „Grammatikbuch des Lebens“ entstehen. Dies würde das Verständnis für Krankheitsursachen und Behandlungen vorantreiben. Sowohl Modell als auch Trainingsvokabular stehen nun anderen Wissenschaftlern zur Verfügung und lassen sich auf neue Fragestellungen anwenden.

(ID:50121141)

Jetzt Newsletter abonnieren

Wöchentlich die wichtigsten Infos zur Digitalisierung im Gesundheitswesen

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung