Talk Protein to me Mit Künstlicher Intelligenz Eiweiße entwickeln

Das Gespräch führte Chiara Maurer Lesedauer: 6 min

Proteine und Sprache sind zwei Dinge, die man nicht direkt in Verbindung bringen würde. Betrachtet man Proteine aber als Satz, dann sind Aminosäuren die Worte. Wir Menschen werden diese Sprache wohl niemals lernen – das vom KI-Forschungsteam von Salesforce entwickelte Sprachmodell ProGen kann das, wie Nikhil Naik, Director of AI Research bei Salesforce, im Interview erläutert.

Der Begriff Protein stammt von dem griechischen Wort Proton für „das Erste, das Wichtigste“, da Eiweiß für unseren Körper sehr wichtig ist
Der Begriff Protein stammt von dem griechischen Wort Proton für „das Erste, das Wichtigste“, da Eiweiß für unseren Körper sehr wichtig ist
(© Christoph Burgstedt - stock.adobe.com)

Herr Naik, ProGen ist ein Sprachmodell, das durch den Einsatz Künstlicher Intelligenz „Proteine entwirft“. Wie genau funktioniert das, und welche Rolle spielt hier die sogenannte generative KI?

Naik: KI-Algorithmen, so genannte „neuronale Sprachmodelle“, haben bemerkenswerte Erfolge bei der Texterzeugung durch Nachahmung der menschlichen Sprache gezeigt. Trainiert man sie mit ausreichend Daten, können Sprachmodelle neue Texte generieren, die von menschlich erzeugtem Text nicht zu unterscheiden sind.

Eine wichtige Erkenntnis für unsere Arbeit ist, dass Proteine als Sprache dargestellt werden können, die aus Aminosäuren besteht. Das sind die 20 Moleküle, aus denen jedes Protein zusammengesetzt ist. Ebenso wie Wörter einzeln aneinandergereiht werden, um Sätze zu bilden, werden auch Aminosäuren einzeln aneinandergereiht, um Proteine zu bilden. Darauf aufbauend wenden wir die neuronale Sprachmodellierung auf Proteine an, um realitätsnahe, aber neuartige Proteinsequenzen zu erzeugen.

Unser Interviewpartner: Nikhil Naik, Director of AI Research, Salesforce
Unser Interviewpartner: Nikhil Naik, Director of AI Research, Salesforce
(© Salesforce)

Mit unserer Forschung testen wir Künstliche Intelligenz, die auf erfolgreichen KI-Sprachmodellen basiert, um höchst realistische Sätze in natürlicher Sprache zu erzeugen. Wir können zeigen, dass unser Sprachmodell ProGen die Sprache der Proteine erlernen kann, um künstliche Sequenzen für mehrere Proteinfamilien zu erzeugen.

Konkret trainieren wir ein „konditionales“ Sprachmodell, also ein Modell, das durch Benutzereingaben so gesteuert werden kann, dass es Sprache mit bestimmten benutzerdefinierten Eigenschaften, den so genannten „Control Tags“, erzeugt. Im Falle der menschlichen Sprache können diese Kontroll-Tags Eigenschaften wie Stil, Themen oder Daten sein.

Bei Proteinen sind die Kontroll-Tags biologische Eigenschaften wie Proteinfamilie, biologischer Prozess oder molekulare Funktion. Wenn man also einem konditionalen Sprachmodell einen Kontroll-Tag gibt, das eine Proteinfamilie spezifiziert (zum Beispiel ein gegen Phagen wirkendes Lysozym, ein antibakterielles Protein), wird es wahrscheinlich ein Protein mit einer Aminosäuresequenz innerhalb dieser Lysozym-Familie erzeugen.

Wie unterscheidet sich ihre KI ProGen von bisherigen, vergleichbaren KI-Sprachmodellen in diesem Bereich der Forschung?

Naik: Unser KI-System ProGen ist ein hochleistungsfähiges Sprachmodell, das auf der größten verfügbaren Proteindatenbank (~ 280 Millionen Proben) trainiert wurde.

Der Hauptunterschied zu anderen auf Proteine fokussierten KI-Systemen besteht darin, dass ProGen nicht nur Aminosäuresequenzen lesen, sondern auch von Grund auf neu schreiben kann.

ProGen geht eines der schwierigsten Probleme in der Wissenschaft an und zeigt, dass die generative Modellierung im großen Maßstab die künstliche Entwicklung von Proteinen weit nach vorne bringen kann. Ziel ist es, die synthetische Biologie, die Materialwissenschaft und die Medizin zu verändern. Unsere Arbeit zeigt, dass wir KI als kontrollierbares Werkzeug einsetzen können, um Proteine für bestimmte Zielsetzungen in der Biologie zu entwerfen.

Wir setzen hier einen Meilenstein, indem wir die erste bekannte 3D-Struktur eines künstlichen Proteins vorstellen, das vollständig von KI entworfen wurde.

Welche Potenziale bietet diese Technologie?

Naik: Salesforce AI Research hat ProGen im Jahr 2020 zum ersten Mal vorgestellt. Das KI-Sprachmodell hat gezeigt, dass es mithilfe von künstlicher Intelligenz Proteine entwerfen kann, die möglicherweise bei der Bekämpfung von Bakterien und beim Abbau von Kunststoffen zum Schutz der Umwelt unterstützen könnten. Wissenschaftler:innen und Forscher:innen können damit hochgradig individualisierte Proteine mit gewünschten Eigenschaften kontrolliert erstellen – etwa die Fähigkeit, sich an ein anderes Molekül zu binden oder hohen Temperaturen standzuhalten.

Wir hoffen, dass KI-Modelle die Effizienz und Wirksamkeit der Arzneimittelentwicklung verbessern können. Wir glauben, dass KI als Partner von Wissenschaftler:innen im Nasslabor unterstützen kann. Die Pharmaindustrie setzt bereits KI-Modelle in der Arzneimittelentwicklung ein, und wir hoffen, dass sie diesen Prozess optimieren kann.

Auf der nächsten Seite: Ergebnisse der Forschung

(ID:49589765)

Jetzt Newsletter abonnieren

Wöchentlich die wichtigsten Infos zur Digitalisierung im Gesundheitswesen

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung