Glossar | |
---|---|
Schlüsselwörter | Optical Character Recognition, OCR, ICR |
Typ | KI-UseCase |
Verfahren der automatisierten Text- und Schrifterkennung.
Beim Optical Character Recognition werden unterschiedliche Bildtexte erkannt und in einen maschinell lesbaren Text transformiert. Dabei gibt es unterschiedliche Stufen bzw. Qualitäten, von einer einfachen optischen Zeichenerkennung, über eine intelligente optische Zeichenerkennung, die intelligente Worterkennung (statt Zeichen werden ganze Wortbilder verarbeitet) bis zur optischen Markierungserkennung (bezieht auch Zeichen, Symbole und Logos ein).
OCR stellt damit nicht nur einen entscheidenden Schritt zur Entwicklung von Datenbanken wie bei Patientenakten oder auch handschriftlichen Formularen, sondern OCR ist oft auch Teil in anderen KI-Anwendungen wie beim Lesen von Straßenschildern für das autonome Fahren.
Physische Dokumente wie Papierformulare, Rechnungen, etc. einzeln zu verwalten, ist zeit- und platzaufwendig. Bisherige Lösungen über das Scannen von Dokumenten sind ebenfalls mühsam und zeitaufwändig. Zudem wandelt ein Scanner den geschriebenen Text in ein Bild, welcher mittels Textverarbeitungssoftware erst wieder verarbeitet werden muss. Die OCR-Technologie wandelt Textbilder direkt in maschinenlesbare Textdaten um. Die maschinenlesbaren Textdaten stehen direkt weiteren Geschäftssoftwareanwendungen zur Verfügung. Zudem ermöglichen die umgewandelten Texte eine schnelle Begriffssuche.
(Vergleiche auch den Beitrag Dokumentenanalyse)
OCR basiert im Grund auf der Mustererkennung, gleich der Sprach- und Gesichtserkennung. Für die Zeichenerfassung wurden Algorithmen trainiert. Neuronale Netze kommen besonders beim Erfassen ganzer Zeilen zum Einsatz wie auch für die Weiterentwicklung hin zur Kontextanalyse und damit einer automatischen Korrekturmöglichkeit (Intelligent Character Recognition (ICR)).
Die Textanalyse kann über verschiedenen Methodiken und Techniken realisiert werden. Vor allem das Natural Language Processing (NLP) ist in diesem Kontext als Schlüsseltechnologie anzusehen. Diese Methodik ermöglicht es dem System grammatische Strukturen zu analysieren und Entitäten und deren Beziehungen zueinander zu erkennen. Mit anderen Worten ermöglicht es der KI, den Inhalt und Kontext zu verstehen. Aufbauend auf dieser Grundlage, können weitere KI-Methodiken kombiniert werden: