Optical Character Recognition (OCR)

Glossar
SchlüsselwörterOptical Character Recognition, OCR, ICR
TypKI-UseCase

Verfahren der automatisierten Text- und Schrifterkennung.

Beim Optical Character Recognition werden unterschiedliche Bildtexte erkannt und in einen maschinell lesbaren Text transformiert. Dabei gibt es unterschiedliche Stufen bzw. Qualitäten, von einer einfachen optischen Zeichenerkennung, über eine intelligente optische Zeichenerkennung, die intelligente Worterkennung (statt Zeichen werden ganze Wortbilder verarbeitet) bis zur optischen Markierungserkennung (bezieht auch Zeichen, Symbole und Logos ein).

OCR stellt damit nicht nur einen entscheidenden Schritt zur Entwicklung von Datenbanken wie bei Patientenakten oder auch handschriftlichen Formularen, sondern OCR ist oft auch Teil in anderen KI-Anwendungen wie beim Lesen von Straßenschildern für das autonome Fahren.

Problemstellung & Zielsetzung

Physische Dokumente wie Papierformulare, Rechnungen, etc. einzeln zu verwalten, ist zeit- und platzaufwendig. Bisherige Lösungen über das Scannen von Dokumenten sind ebenfalls mühsam und zeitaufwändig. Zudem wandelt ein Scanner den geschriebenen Text in ein Bild, welcher mittels Textverarbeitungssoftware erst wieder verarbeitet werden muss. Die OCR-Technologie wandelt Textbilder direkt in maschinenlesbare Textdaten um. Die maschinenlesbaren Textdaten stehen direkt weiteren Geschäftssoftwareanwendungen zur Verfügung. Zudem ermöglichen die umgewandelten Texte eine schnelle Begriffssuche.

MÖGLICHE KI-METHODIKEN

(Vergleiche auch den Beitrag Dokumentenanalyse)

OCR basiert im Grund auf der Mustererkennung, gleich der Sprach- und Gesichtserkennung. Für die Zeichenerfassung wurden Algorithmen trainiert. Neuronale Netze kommen besonders beim Erfassen ganzer Zeilen zum Einsatz wie auch für die Weiterentwicklung hin zur Kontextanalyse und damit einer automatischen Korrekturmöglichkeit (Intelligent Character Recognition (ICR)).

Die Textanalyse kann über verschiedenen Methodiken und Techniken realisiert werden. Vor allem das Natural Language Processing (NLP) ist in diesem Kontext als Schlüsseltechnologie anzusehen. Diese Methodik ermöglicht es dem System grammatische Strukturen zu analysieren und Entitäten und deren Beziehungen zueinander zu erkennen. Mit anderen Worten ermöglicht es der KI, den Inhalt und Kontext zu verstehen. Aufbauend auf dieser Grundlage, können weitere KI-Methodiken kombiniert werden:

  1. Regelbasiert - Bei standardisierten Texten wie z.B. Formularen
  2. Machine Learning - ML-Algorithmen können Dokumente klassifizieren oder Muster erkennen.
    1. Supervised Learning - Ermöglicht z.B. die Klassifizierung Formulartypen.
    2. Unsupervised Learning- Ermöglicht z.B. die Erkennung von Mustern und das Extrahieren relevanter Informationen.
  3. Deep Learning - als Untergruppe des ML haben hohe Leistungsfähigkeit in der Verarbeitung von NLP-Aufgaben.
    1. Recurrent neural network (RNN) - Ermöglichen eine bessere sequentielle Erfassung von Muster in Daten als das klassische Machine Learning zur Kontextanalyse.

Risiken & Chancen

Best Practices

Weiterführende Informationen