Definition Was sind Large Multimodal Models (LMM)?

Von Erik1 2 min Lesedauer

Large Language Models wie GPT 3.5 besitzen die Fähigkeit, menschlich klingende Texte zu generieren. Die logische Weiterentwicklung generativer Text-KI sind Modelle, die mehr als nur Texte verstehen und generieren können: Large Multimodal Models (LMM).

Large Multi-modal Models (LMM): Weiterentwicklung von Large Language Models wie GPT 3.5(Bild:  aga7ta – stock.adobe.com)
Large Multi-modal Models (LMM): Weiterentwicklung von Large Language Models wie GPT 3.5
(Bild: aga7ta – stock.adobe.com)

Large Multimodal Models sind eine Kombination aus generativer und multimodaler Künstlicher Intelligenz. Multimodal bedeutet in diesem Kontext: Es handelt sich um Modelle, die in der Lage sind, verschiedene Sinneseindrücke, Kommunikationsmöglichkeiten und Medienformate zu verstehen, zu interpretieren und zu erzeugen. Während Large Language Models nur Texte verstehen und generieren können, lassen sich LMMs auch für die Interpretation und Generierung von Audio- sowie Bildinhalten verwenden.

Was können große multimodale Modelle?

Große multimodale Modelle greifen bei jeder Datenmodalität (Text, Bild, Audio) auf Encoder zurück, deren Aufgabe es ist., passgenaue Datenentsprechungen (Embeddings) herzustellen. Anschließend werden diese individuellen, modalitätsspezifischen Embeddings in einen einheitlichen Einbettungsraum überführt. Large Multi-modal Models basieren grundsätzlich immer auf einem Large Language Model (weshalb KI-Modelle wie Midjourney und Stable Diffusion nicht in die Kategorie der LMMs einzuordnen sind). Zu den Fähigkeiten von LMMs gehört das Erfassen visueller Informationen - zum Teil auch in 3D. Außerdem können Large Multi-modal Models anders als LLMs auch Ausgaben in Bildformaten realisieren. Ein bekanntes LMM ist GPT 4V, das im September 2023 von OpenAI präsentiert wurde.

(Potenzielle) Anwendungsfälle für Large Multi-modal Models

Zu den potenziellen Anwendungsmöglichkeiten von LMMs zählen:

  • die Erstellung anspruchsvoller Schulungs- und Bildungsmaterialien, die Texte, Audio und Bilder in Kombination enthalten,
  • die Erschaffung multimodaler Kunstwerke für ein immersives Erlebnis,
  • die Verbesserung von Wettervorhersagen durch die Interpretation verschiedener Datenmodalitäten wie Satellitenbilder, Muster aus der Vergangenheit in Kombination mit aktuellen atmosphärischen Bedingungen,
  • die automatisierte Qualitätskontrolle von Endprodukten oder einzelnen Bauteilen.

Wie lassen sich LMMs im Gesundheitswesen einsetzen?

Im Gesundheitssektor besitzen LMMs ein großes Anwendungspotenzial. Anders als herkömmliche KI-Diagnosesysteme verarbeiten LMMs mehrere Modalitäten, wodurch die Diagnosequalität insgesamt verbessert werden kann. Eine weitere Anwendungsmöglichkeit liegt im Bereich eHealth: Große multimodale KI-Modelle lassen sich beispielsweise für die sprachenübergreifende Kommunikation zwischen Hausarzt, Klinik und Patient nutzen.

(ID:49902406)

Jetzt Newsletter abonnieren

Wöchentlich die wichtigsten Infos zur Digitalisierung im Gesundheitswesen

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung