MFP, OCR & Co.

Die Macht des Scannens

Seite: 2/2

Anbieter zum Thema

Optical Character ­Recognition (OCR)

Bei der Durchführung von Scanvorgängen entstehen häufig Bilddateien im JPEG-Format, die sich aus einer Vielzahl unterschiedlicher Bildpunkte zusammensetzen. Das Problem: Diese Dateien beinhalten nur Informationen zur grafischen Wiedergabe von Abbildungen. Wörter und Zahlen erkennt der Computer nicht als solche, sodass sich das Dokument nicht zur effizienten Weiterverarbeitung eignet – Text lässt sich nicht kopieren, durchsuchen oder bearbeiten. An dieser Stelle setzt OCR an. Mit der Technologie zur automatischen Texterkennung gelingt es, diese ­gescannten Files in bearbeitbare und durchsuchbare Texte zu konvertieren. Besonders im Dokumentenmanagement spielt dieser Vorgang eine wichtige Rolle. Das Verfahren zeichnet sich vor allem durch eine Mustererkennung aus, die Buchstaben, Ziffern und Satzzeichen durch Abgleich erkennt und anschließend sinnvoll zusammenfügt.

Mithilfe von OCR kommt es zu großen Ersparnissen von Zeit und Aufwand. Denn umfangreiches manuelles Suchen oder ewiges Scrollen durch Dokumente entfällt dank der automatischen Texterkennung und der dadurch möglichen Suchfunktion. Für die Digitalisierung von Papier bringt dies große Vorteile mit sich, da die Dateien nicht einfach nur abgelegt, sondern für eine nützliche Verwendung verfügbar sind. Viele Lösungen werben mit ebendiesen Pluspunkten und sprechen von problemloser Umsetzung. Häufig fehlt aber ein Hinweis darauf, dass trotz aller Technologie noch immer das analoge Papier zu den Hauptprotagonisten zählt. Weist das Ausgangsdokument geringe Qualität auf – ist es beispielsweise geknickt oder beschmutzt –, fallen die Ergebnisse von OCR in der Regel nicht wie gewünscht aus. In vielen Anwendungsfällen bedarf es allerdings zwingend lückenloser Resultate.

Geschichten aus dem Alltag

Neue, teils verschmierte Adress­aufkleber auf dem Personalausweis, Kaffeeflecken auf wichtigen Dokumenten oder ein zerknickter, vielleicht sogar mitgewaschener Reisepass – all diesen Konstella­tionen sehen sich zum Beispiel Banken und Behörden täglich gegenüber. Gerade in Bezug auf das Geldwäschegesetz und die damit zusammenhängende Legitimation benötigen Finanzinstitute korrekte Angaben, die von den Dokumenten erfasst werden. In Kombina­tion mit einer nicht hochleistungsfähigen Software entstehen keine guten OCR-Ergebnisse – das ist erst ab 85 bis 90 Prozent erkannter Texte aus einem Dokument­ der Fall.

Oftmals greifen Anwender aber auf Open-Source-Lösungen zurück, die mit der Performance von proprietären Technologien nicht mithalten. Zur Orientierung: Liegt die Quote gar bei 99 Prozent, erkennt das System dennoch von 1.000 Texten zehn nicht. Je tiefer der Anteil also liegt, desto mehr geht verloren. Besonders wichtige Angaben sollten darüber hinaus auf Korrektheit geprüft beziehungsweise manuell erfasst werden. Zudem geben die Qualität der zu erfassenden Dateien und deren korrekte, gerade Ausrichtung im Scanvorgang den Ausschlag für den Erfolg.

Myrko Rudolph
Geschäftsführer der exapture GmbH

Bildquelle: exapture GmbH

(ID:49693302)

Jetzt Newsletter abonnieren

Wöchentlich die wichtigsten Infos zur Digitalisierung im Gesundheitswesen

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung