KI in der Radiologie Lokale LLMs bei Thorax-Befundanalyse gleichauf mit ChatGPT-4o

Von Stephan Augsten 2 min Lesedauer

Anbieter zum Thema

Bei der automatisierten Analyse und Zusammenfassung radiologischer Befunde können lokale Open-Weights-Sprachmodelle gleichwertige Ergebnisse erzielen wie kommerzielle generative KI-Systeme. Dies berichten Forschende der Universität Bonn und des Universitätsklinikums Bonn.

Offene Sprachmodelle erzielen bei der Analyse von Thorax-Röntgenbefunden ähnlich gute Ergebnisse wie ChatGPT-LLMs.(©  Blue Planet Studio - stock.adobe.com)
Offene Sprachmodelle erzielen bei der Analyse von Thorax-Röntgenbefunden ähnlich gute Ergebnisse wie ChatGPT-LLMs.
(© Blue Planet Studio - stock.adobe.com)

Die Datenanalyse und -verarbeitung durch kommerzielle Large Language Models wie OpenAIs GPT-Modellen geht fast immer mit Datenschutz-Bedenken einher. Forschende des Universitätsklinikums Bonn und der Universität Bonn haben deshalb anhand der KI-basierten Strukturierung von Röntgenbefunden untersucht, wie sich lokal betriebene Open-Weights-Sprachmodelle im Vergleich schlagen.

In ihrer zwischen Mai und September 2024 durchgeführten Studie verglichen die Wissenschaftler um Dr. Sebastian Nowak (Ph.D.) ingesamt 17 offene Sprachmodelle, darunter auch das regelbasierte CheXpert-LLM, mit den vier OpenAI-Modellen GPT-4o, GPT-4o-mini, GPT-4-turbo und GPT-3.5-turbo. Als Datenbasis diente dabei zunächst ein manuell annotierter, öffentlicher Datensatz mit Röntgen-Thoraxaufnahmen von 3927 Patienten und zugehöriger Berichte der US-amerikanischen Indiana University.

Bei der Analyse der englischsprachigen Berichte und Röntgenbefunde lagen die drei besten Open-Weights-LLMs gleichauf mit ChatGPT-4o. Als Vergleichsmetrik wurde der „macro-averaged“ F1-Score herangezogen, der die Genauigkeit eines Modells anhand der Faktoren Präzision und Erinnerungsvermögen bemisst. OpenAIs Referenzmodell erreichte dabei eine durchschnittliche Genauigkeit von 92,4 Prozent und lag damit sogar leicht hinter einer lokalen Implementierung des „Mistral-Large“-Sprachmodells von Mistral AI (92,6 Prozent). Einen ähnlich guten Wert (92,2 Prozent) erzielte auch Llama-3.1-70b von Meta AI, gefolgt vom Llama-3.1–405b-Modell des gleichen Anbieters (90,3 Prozent). Damit übertrafen sie deutlich die Leistung des regelbasierten Systems CheXpert, dessen F1-Score nur 73,1 Prozent betrug.

Um die Ergebnisse eines lokalen Feintunings zu prüfen, wurden die offenen LLMs später noch mit einem nicht-öffentlichen deutschen Datensatz mit 18.500 Befunden von 16.844 Patienten gefüttert. Mit nur 1.000 Trainingsbefunden konnte die Genauigkeit von Mistral-Large, das ohne KI-Trainingsdaten bereits einen durchschnittlichen F1-Score von 91,6 Prozent erzielte, um weitere 2,7 Prozentpunkte gesteigert werden. Kleine Sprachmodelle schnitten grundsätzlich schlechter ab, nach einem Training mit über 2.000 Befunden fielen die Unterschiede allerdings weit weniger ins Gewicht.

Ein besonderer Vorteil der Open-Weights-Modelle liegt im Datenschutz: Anders als bei kommerziellen Cloud-Diensten können sie direkt in der geschützten IT-Infrastruktur der Kliniken betrieben werden. Dies ist besonders relevant, da die Verarbeitung geschützter Gesundheitsdaten auf externen Servern in vielen Ländern streng reguliert ist. Die Bonner Wissenschaftler stellen ihre Forschungsergebnisse und den verwendeten Code der medizinischen Gemeinschaft unter einer Open-Source-Lizenz auf GitHub zur Verfügung. Dies ermöglicht anderen Kliniken, die Technologie für ihre eigenen Anforderungen zu nutzen und weiterzuentwickeln.

Die Autoren weisen jedoch auch auf Einschränkungen hin: So wurde nur die Analyse von Thorax-Röntgenbefunden untersucht, nicht die anderer bildgebender Verfahren. Zudem beschränkte sich die Auswertung auf binäre Klassifikationen – also das Vorhandensein oder Nicht-Vorhandensein bestimmter Befunde. Komplexere Aufgaben wie die Bewertung von Schweregrade oder die Extraktion von Datumsangaben wurden nicht untersucht.

Artikelfiles und Artikellinks

(ID:50286976)

Jetzt Newsletter abonnieren

Wöchentlich die wichtigsten Infos zur Digitalisierung im Gesundheitswesen

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung