Computer Vision

Glossar
Schlüsselwörter	Computer Vision, Bildverarbeitung, Bildanalyse
Typ	KI-UseCase

Unter Computer Vision auch als Natural-Image-Processing bezeichnet, versteht man die Verarbeitung von Signalen, die Bilder repräsentieren.

Computer Vision zielt darauf ab, dem Computer das „Sehen“ nach menschlichem Vorbild zu ermöglichen bzw. die Fähigkeit zu geben Standbilder (Fotos) und Bewegtbilder (Videos) zu interpretieren, sowie die darauf basierende Generierung/Synthese von Bildern. Wobei „sehen“ und „verstehen“ für einen Computer nur eine Reihe von Datenpunkten sind, die über spezielle Algorithmen in nützliche Informationen umgewandelt werden können. Ziele im Computer Vision liegen in der Identifikation von:

Objekterkennung und -klassifikation (inkl. Szenen- und Kontextverständnis)
Bildsegmentierung
Erkennung von Gesichtsmerkmalen und -ausdrücken
Bewegungserkennung und -verfolgung
3D-Rekonstruktion aus 2D-Vorlagen

Problemstellung & Zielsetzung

Um maschinelles Lernen und Deep Learning auch bei grafischen Elementen zu ermöglichen, müssen Bilder als Daten vorliegen. Computer Vision ermöglicht es komplexe menschliche Aktionen im Multimedia-Stream zu identifizieren wie in Gesundheit, Bildung oder auch dem Transport. Daten werden so gesammelt, um zu verstehen und darauf aufbauend Entscheidungen aus Vergangenem und zukünftigen Annahmen zu ermöglichen.

Mögliche KI-Methodiken

Das Computer Vision wird hauptsächlich über das Deep Learning realisiert. Als besonders genau und geeignet haben sich Convolutional Neural Networks (CNNs) erwiesen.

Beim Computer Vision kommen insgesamt Methoden zum Einsatz, welche die Segmentierung, die Klassifizierung und die Objekt-Deduktion umfassen:

- Machine Learning - Überwachung von In- und Output-Daten.

Supervised Learning - Erkennung von Anomalien bzw. Abweichungen von erwarteten Werten in Bildern.
Unsupervised Learning- Erkennung von Strukturen oder Mustern in den Daten.
Instance Based Learning - Vorhersagen auf Basis des Abgleichens von Eingabe-/Datenpaaren.

In Kombination mit anderen Ansätzen lassen sich aus Bilddaten optimale und verbesserte Handlungsstrategien ableiten.

- Deep Learning - Überwachung von In- und Output-Daten auf Basis mehrerer Layer.

Convolutional Neural Networks (CNNs)- für Bildanalysen von Standbildern (Fotos, Grafiken, Diagramme, etc.) und Bewegtbilder (Videos, Live-Streams, etc.).
Recurrent neural network (RNN) - Ermöglichen eine bessere sequentielle Erfassung von Mustern in Daten.

Risiken & Chancen

Mangelhafte Lernsätze führen zu falschen Aussagen.
Ermöglicht ganz neue Anwendungsfelder wie das autonome Fahren.

Best Practices

Weiterführende Literatur

Künstliche Intelligenz verstehen (2019)
Ralf T. Kreutzer, Marie Sirrenberg
Springer Fachmedien Wiesbaden DOI:10.1007/978-3-658-25561-9
Was ist Computer Vision? Visuelle Wahrnehmung durch IT (2023)
Stefan Platzer
A Review on Machine Learning Styles in Computer Vision—Techniques and Future Directions (2022)
Supriya V. Mahadevkar; Bharti Khemani; Shruti Patil; Ketan Kotecha; Deepali R. Vora; Ajith Abraham; Lubna Abdelkareim Gabralla in IEEE Access, vol. 10, pp. 107293-107329
Was ist Computer Vision?
IBM, (o.D.)