Definition Welche Rolle spielen KI-Trainingsdaten?

Von Casablanca 4 min Lesedauer

KI-Trainingsdaten spielen für die Leistungsfähigkeit von künstlicher Intelligenz eine Schlüsselrolle. Denn damit eine künstliche Intelligenz später alleine „denken“, handeln und logische Schlüsse ziehen kann, muss sie all das erst am praktischen Beispiel erlernen.

Nicht alle verfügbaren Daten sind automatisch auch KI-geeignete Trainingsdaten.(©  scyther5, Getty Images via Canva.com)
Nicht alle verfügbaren Daten sind automatisch auch KI-geeignete Trainingsdaten.
(© scyther5, Getty Images via Canva.com)

Als Trainingsdaten bezeichnet man riesige Datensätze, die in das jeweilige KI-Modell eingespeist werden und welche selbiges anschließend nutzt, um sich all das Wissen aus diesen Datensätzen anzueignen – sowohl was „harte Fakten“ anbelangt als auch mit Hinblick auf Semantik und Kontext. Trainingsdatensätze sind dabei so aufgebaut, dass einzelne Attribute, also spezifische Daten, zuvor kommentiert und meist detailliert beschriftet wurden. Erst dadurch ist das KI-Modell in seiner anfänglichen Phase in der Lage, aus den einzelnen Datensätzen Muster zu bilden – die es dann im nächsten Schritt selbst lernt.

Da das KI-Modell anfänglich nur das lernt, was es aufgezeigt bekommt, bevor es sich daraus eigenständig weiterentwickeln kann, ist die Qualität von KI-Trainingsdaten von größter Bedeutung. Derartige Datensätze werden daher nicht beliebig eingespeist, sondern zuvor von Menschen annotiert. Gleichermaßen durchlaufen KI-Trainingsdaten strikte Qualitätskontrollen, da sich die Qualität dieser später auch auf den Fortschritt des KI-Modells auswirkt.

Differenzierung zwischen einzelnen KI-Trainingsdaten

Unterschiedliche KI-Modelle werden wenig überraschend auch mit verschiedenartigen Daten versorgt. Anfänglich lassen sich diese entsprechend des Formats unterscheiden:

  • Bilder-Datensätze werden zur Bilderkennung und Bilderstellung genutzt
  • Audio- und Videoaufnahmen hingegen für die Sprach- und Video- sowie Mimik- und Gestikanalyse
  • Texte für eine natürliche Spracherkennung und -verarbeitung
  • numerische Daten nutzen KI-Modelle zum Antrainieren von statistischen Analysen und daraus abgeleiteten Prognosen

Während sich diese Differenzierung auf die Art beziehungsweise das Medium der Daten fokussiert, lassen sich KI-Trainingsdaten auch noch in weitere Kategorien unterteilen.

  • Der klassische KI-Trainingsdatensatz nimmt dabei den größten Teil ein. Diese Informationen dienen dem eigentlichen Training der künstlichen Intelligenz und bilden folglich auch die ersten Datensätze, mit denen die KI in Kontakt kommt.
  • Nachdem die zuständigen Entwickler bereits ein funktionstüchtiges KI-Modell geschaffen haben, spielt die zweite Kategorie der KI-Trainingsdaten eine wichtige Rolle: Validierungsdatensätze werden von Entwicklern zur detaillierten Feinabstimmung des Modells genutzt. Hierbei ist auch wichtig, welche Modellparameter von den Entwicklern angestrebt werden und welche das KI-System unter Einsatz der ersten großen Trainingsdatensätze bereits erreichte.
  • Immer wieder fortlaufend wird ein KI-Modell zudem mit Testdatensätzen versorgt. Diese sollen die bisherigen Fortschritte des Modells, die aus den zuvor übermittelten Trainings- und Validierungsdatensätzen entstanden sind, auf den Prüfstand stellen. Je nach Ergebnis werden im weiteren Verlauf dann auch die nachfolgenden KI-Trainingsdaten den zuvor erzielten Resultaten angepasst.

Herausforderungen auf Entwicklerseite bezüglich den KI-Trainingsdaten

KI-Trainingsdaten müssen immer drei wichtige Kriterien erfüllen: Sie müssen quantitativ umfassend, qualitativ hochwertig und vielfältig sein. Nur wenn die jeweiligen Datensätze alle drei Kriterien erfüllen, werden sie tatsächlich der KI vorgelegt – weshalb solche Trainingsdatensätze auch immer ein vorheriges manuelles Annotieren durch entsprechend qualifizierte Menschen voraussetzen.

Dazu einige Beispiele: Lässt die Qualität der Daten zu wünschen übrig, könnte die KI Fehlschlüsse ziehen und sich zugleich weiter daraus abgeleitete Fehler aneignen – wodurch das System unzuverlässig wird. Fehlt es an der schieren nötigen Datenmasse, könnte das Modell notwendige Muster entweder gar nicht oder nicht im kompletten Kontext erkennen, auch sind dann „blinde Flecken“ im Wissensstand und den Fähigkeiten denkbar. Fehlt es hingegen an Vielfalt, könnte die KI nie erlernen, dass es verschiedene Wahrscheinlichkeitstypen gibt – das wäre beispielsweise möglich, wenn lediglich Daten einer bestimmten Branche oder einer bestimmten Demografie eingespeist werden würden.

Aus diesen hohen Anforderungen resultieren zugleich erhebliche Herausforderungen, denn nicht alle verfügbaren Daten sind automatisch auch KI-geeignete Trainingsdaten. Stattdessen werden ideale Daten benötigt, deren Beschaffung teuer und zeitaufwändig ist – speziell in Branchen, in denen eine hohe Datensicherheit gewährleistet ist, wie beispielsweise dem Bankenwesen oder dem Gesundheitswesen.

Ein weiteres Risiko liegt in der Befangenheit der Menschen, die Daten beispielsweise unbewusst befangen und subjektiv kommentieren könnten, was dann wiederum zwangsläufig auf den Lernprozess des KI-Modells Einfluss nimmt. Überanpassungen der Daten sind ein weiteres Risiko, das bei KI-Modellen zu Halluzinationen führen kann: In diesem Fall orientiert sich die KI eigenständig nicht mehr an den Trainingsdaten, sondern entwickelt eigene, meist falsche Antworten, um dem eigenen Anspruch an Perfektionismus weiter gerecht zu werden.

Wie viele Trainingsdaten benötigt ein KI-Modell?

Eine pauschal gültige Antwort dahingehend gibt es zwar nicht, jedoch sind sich Experten zumindest ungefähr einig: Ein KI-Chatbot benötigt typischerweise rund 250.000 Fragen gepaart mit mehr als zwei Millionen Antworten. Eine KI-Gesichtserkennung benötigt als KI-Trainingsdaten knapp 500.000 geeignete Bilder von Gesichtern, während ein KI-Übersetzungstool sowohl eine sechsstellige Zahl von Daten von Muttersprachlern als auch Nicht-Muttersprachlern, Text und Audioaufnahmen benötigt.

Um KI-Entwickler mit geeigneten KI-Trainingsdaten zu versorgen, gibt es mehrere Möglichkeiten: Diese könnten die öffentlich aus dem Internet in der Masse zusammentragen und dann selbst aufbereiten oder sie alternativ von Dienstleistern einkaufen, die sich auf die Vorbereitung von KI-Trainingsdaten spezialisiert haben. Auch große Tech-Unternehmen, wie Google oder Meta, stellen regelmäßig (in eingeschränkter Weise) KI-Trainingsdaten zur Verfügung.

(ID:50240996)

Jetzt Newsletter abonnieren

Wöchentlich die wichtigsten Infos zur Digitalisierung im Gesundheitswesen

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung