Überblick
Nach den bisherigen Vorbereitungen erfolgt an dieser Stelle nun eine erste technische Machbarkeitsprüfung des Anwendungsfalls (Proof of Concept) in Form eines mathematischen Modells. Ähnlich zur vorherigen Phase „Verstehen & Analysieren“ wird auch hier ein iteratives Vorgehen wie in der Lean Startup Methode verwendet. Durch ein frühes Testen der Machbarkeit können teure Investitionen oder nicht notwendige Umgestaltungen vermieden werden, falls ein Anwendungsfall nicht den gewünschten Mehrwert liefert. Des Weiteren können dadurch Möglichkeiten und Grenzen des Anwendungsfalls besser verstanden werden, wodurch auch Aufwand und Nutzen besser einschätzbar sind.
Was ist zu tun?
Durch die Unterstützung geeigneter Tools wird mit Hilfe von Testdaten eingeschätzt, ob vielversprechende Ergebnisse erzielt werden können und ob die Idee hinter dem Anwendungsfall überhaupt realisierbar ist.
Die Testdaten können dabei durch die Erhebung von Beispieldaten (bspw. durch Stichproben oder durch manuelles Labelling (Klassifikation)) oder die Beschaffung externer Daten generiert werden. Da Daten meistens noch nicht in der Form vorliegen, wie sie für das Modell benötigt werden, ist oft noch eine Datenvorverarbeitung notwendig. Die relevanten Schritte sind dabei aus den aufgestellten Datenanforderungen abzuleiten und von Domänenspezialisten oder Experten auszuführen, da dies die Grundlage zur Funktionalität des Systems bildet. Denn nur mit Daten in einer hohen Qualität lassen sich zuverlässige statistische Datenanalysen durchführen, die wiederum eine Basis für KI-Anwendungen sind.
Zur Datenvorverarbeitung zählen:
- Datenbereinigung
- Feature Engineering
Diese beiden Vorgänge und die Überprüfung der technischen Machbarkeit an sich werden nachfolgend näher vorgestellt.
Was ist das Ergebnis?
Im Rahmen der initialen Modellierung konnte eine erste technische Machbarkeit des KI-Use Cases bewiesen oder widerlegt werden.
Quellen
- ML4P Whitepaper (2020)
Fraunhofer - Datenvorverarbeitung (Data Preprocessing)
George Lawton - ComputerWeekly (o.J.) - Wie man seine Daten vor der Verarbeitung vorbereitet: Ein kurzer Leitfaden zum Data Preprocessing
DataScientest (April 2023)
Datenvorverarbeitung - Datenbereinigung
Im ersten Schritt werden falsche, unvollständige oder fehlende Daten bereinigt, um die Datenqualität zu heben und folglich um Datenanalysen und Schlussfolgerungen zu verbessern.
- Identifizieren und Aussortieren fehlender Daten
Ist ein Datensatz unvollständig, bzw. fehlend (z.B. Fehlen eines Zeitstempels zu einem Messwert), kann er bei einer ausreichenden Menge anderer Daten übersprungen werden. Ein anderer Ansatz wäre eine Art Schätzung des Wertes durch die Bildung eines Medians oder Mittelwertes oder durch andere Verfahren wie die Regression.
- Identifizieren und Entfernen von Rauschen in Daten
Unter einem Rauschen in Daten werden große Datenmengen mit einer bestimmten Menge von bedeutungslosen Informationen verstanden. Solche Daten sind verzerrt, beschädigt oder können nicht interpretiert oder verstanden werden. Rauschen in Daten kann zufällig vorkommen oder auch systematisch durch fehlerhafte Messwerkzeuge entstehen. Insbesondere zufälliges Rauschen ist ein unvermeidbares Problem. Zum Entfernen von Rauschen werden statistische Analysen verwendet. Die Verwendung gleitender Durchschnitte kann bspw. verwendet werden, um Ausreißer zu glätten.
- Identifizieren und Entfernen von Duplikaten
Duplikate sind mehrfach auftretende identische Datensätze, die eine Verzerrung in den Daten darstellen und dadurch zu einer verringerten Leistung von Modellen führen. Wichtig ist hierbei aber zu erkennen, ob Datensätze tatsächlich Duplikate sind oder ob es sich nur um identische Ausprägungen handelt. Bei Messwerten können bspw. Zeitstempel Aufschluss geben. Andere Verfahren können die Zuweisung von Schlüsselattributen oder die Verwendung von Ansätzen zu relationalen Datenbanken sein, mit denen konsistente und duplikatfreie Datensätze in Form von Datenbanken erstellt werden können.
Quellen
- Wie man seine Daten vor der Verarbeitung vorbereitet: Ein kurzer Leitfaden zum Data Preprocessing
DataScientest (April 2023) - Rauschende Daten
Wikibrief (o.J.)
Datenvorverarbeitung - Feature Engineering
Feature Engineering beschreibt den Prozess zur Veränderung von Daten und Merkmalen, um die Leistung der benutzten Modelle zu verbessern und damit die Ergebnisqualität zu erhöhen. Damit wird also der Informationsgehalt der Daten erhöht, wodurch Muster und Zusammenhänge besser erkannt werden.
- Standardisierung und Normalisierung von Merkmalen
Verschiedene Algorithmen arbeiten unterschiedlich gut mit unterschiedlichen Skalierungen von Daten. Daher kann eine Anpassung des Skalenniveaus nötig sein, um eine bestmögliche Funktionsweise eines Algorithmus zu gewährleisten.
So kann es bspw. nötig sein, anhand des Maximal- und Minimalwertes einer Datenmenge die Werte auf ein Niveau von 0 bis 1 zu skalieren. Das wird Normalisierung genannt. Bei der Standardisierung wird hingegen ein Mittelwert mit dem Wert 0 gebildet und die restlichen Werte in Form einer Standardabweichung von höchstens 1 abgebildet.
- Datenreduktion
Die Datenreduktion hat die Minimierung von Datenmengen als Ziel, um Komplexität zu reduzieren, die Leistung von Modellen zu erhöhen, Trainingszeit zu verkürzen und auch um die Speichermenge zu verringern (Kostenverringerung). Erreicht wird das durch das Entfernen irrelevanter oder redundanter Daten oder auch durch die Auswahl und Bearbeitung von Teilmengen. Zur Umsetzung gibt es verschiedene Verfahren, wie z.B. Feature Selection, Feature Extraction oder das Sampling. Sie zielen darauf ab, irrelevante oder redundante Daten zu entfernen
- Diskretisierung
Die Diskretisierung beschreibt die Umwandlung von kontinuierlichen Werten in diskrete Werte. Ein Beispiel dafür ist bspw. die Einteilung des Alters von befragten Personen in einer Umfrage in Altersgruppe (bspw. 0-18, 19-65, 65-… Jahre). Durch solch eine Diskretisierung arbeiten manche Algorithmen effizienter und erzeugen zuverlässigere Werte. Allerdings muss beachtet werden, dass ein Informationsverlust mit einher gehen kann.
- Kodierung von Merkmalen
Die Kodierung von Merkamlen beschreibt die Umwandlung von nicht-numerischen Merkmalen in numerische Merkmale. Viele Modelle können nur numerische Werte verarbeiten, weshalb hier eine Kodierung erfolgen muss. So können bspw. Farben und Farbmischungen Zahlen zugeordnet werden. Neben der ganzzahligen Kodierung ist das One-Hot-Coding ein weiteres gebräuchliches Verfahren
Quellen
- Was ist der MinMax Scaler?
Data Base Camp (Mai 2023) - Datenreduktion
ComputerWeekly (o.J.) - Wie man seine Daten vor der Verarbeitung vorbereitet: Ein kurzer Leitfaden zum Data Preprocessing
DataScientest (April 2023) - Diskretisierung
IBM (Februar 2021) - Diskretisierungsmethoden (Data Mining)
Microsoft (September 2022)
Tools für erste Zwischenergebnisse
Die vorverarbeiteten Daten können mit bestimmten Tools getestet werden. Solche Tools sind z.B.:
- Rapidminer oder
Erste Zwischenergebnisse des Modells können dann untersucht und bewertet werden. Sollten die Ergebnisse unzureichend sein und nicht den Zielstellungen des Projekts entsprechen, sollte das Modell iterativ verbessert werden. Andernfalls könnte hier auch bewiesen werden, dass der Anwendungsfall nicht die erhofften Ergebnisse verspricht und Projektziele nicht eingehalten werden. In diesem Fall kann nochmal geprüft werden, ob die richtigen Daten verwendet wurde und die Datenvorverarbeitung fehlerfrei ausgeführt wurde. Falls dabei keine Auffälligkeiten oder Fehler entdeckt werden, sollte der Anwendungsfall vorerst nicht weiter verfolgt werden. Durch Änderung der Datenlage oder durch die Weiterentwicklung von Technologien könnte dieser Anwendungsfall in Zukunft trotzdem realisierbar werden.
Nachfolgend wird aufgezeigt, wie Sie mit Hilfe dieser Tools erste Machbarkeitsuntersuchungen von KI-Use Cases durchführen.
Quellen
- ML4P Whitepaper (2020)
Fraunhofer - Datenvorverarbeitung (Data Preprocessing)
George Lawton - ComputerWeekly (o.J.)
Agiles Vorgehen in der Initialmodellbildung
Kurz & Knapp
Der Proof of Concept ist die Nachweisführung zur Durchführbarkeit von Vorhaben, das auf einer iterativen Vorgehensweise basiert.
4-8 Personen
Tage bis mehrere Wochen
Digitale Tools wie RapidMiner oder KNIME
Vorgehensweise
Mit Hilfe eines Proof of Concepts sollen brauchbare Lösungsansätze mit einem vertretbaren Aufwand nachgewiesen werden. Um sich diesen Lösungsansätzen anzunähern und nicht sofort mit hohen Investitionen oder anderen größeren Aufwänden beginnen zu müssen, wird ein iteratives Vorgehen angewendet. Durch diese Vorgehen wird sich brauchbaren Lösungen im Laufe der Iterationen angenähert, wodurch Grenzen und Möglichkeiten eines Systems (für eine Kosten-Nutzen-Analyse) deutlicher werden und nicht machbare Ideen frühzeitig verworfen werden können. Das iterative Vorgehen schließt sich dabei auch dem Lernprozess an, den Prozessexperten und KI-Spezialisten im Rahmen des Proof of Concepts ebenfalls durchlaufen.
Vorgehen:
- Hypothesen/Lösungsansätze
-Auswahl eines vielversprechenden Lösungsansatzes
-Erstellung eines ML-Pipeline-Diagramms inkl. Datenflüsse
-Verfeinerung oder Verwerfung des Lösungsansatzes in späteren Iterationen - Datenbereitstellung
-im ML-Pipeline-Diagramm notwendige Datenquellen erkennbar
-Erhebung von Beispieldaten mit reduziertem Aufwand (bspw. durch Stichproben o.ä.)
-Vorverarbeitung der Daten für das Modell-Training
-Einbezug von Prozessbedienern zur Verbesserung der Datenqualität - Lösungsentwicklung
-Umsetzung der Pipeline, bis ein kompletter Durchlauf möglich ist (ggf. noch mit manueller Unterstützung) - Evaluation
-Evaluation der entwickelten Lösung anhand aufgestellter Zielkriterien
-falls Lösung den Zielkriterien entsprechend, weiter in folgenden Phasen der Prozessassistenz
-falls unzureichende Ergebnisse, Verfeinerung der ML-Pipeline über weitere Iteration, ansonsten Verfolgung eines anderen Lösungsansatzes - Nächste Iteration
-die nächste Iteration beginnt mit einer Überarbeitung, bzw. Verfeinerung der Hypothesen in Schritt 1
Tipps & Tricks
- Ziel des Proof of Concept soll nicht nur die Bewertung der Machbarkeit, sondern vor allem die Grundlagenermittlung für eine ganzheitliche Bewertung eines bestimmten Lösungsansatzes sein.
- Zur Aufstellung von Zielen der Gestaltung eines bestimmten Anwendungsfalls können die Informationen aus dem Kapitel „Gestalten & Testen“ genutzt werden.
- Zur Verbesserung der Datenqualität sollten neben KI-Experten auch Prozessspezialisten und Prozessbediener einbezogen werden.
Beispiel
Der Ablauf der hier präsentierten Methode ist sehr individuell, weshalb auch ein Beispiel die Abläufe und auftretenden Probleme nur schwer verdeutlicht. Dennoch ist hier ein kurzes Beispiel dargestellt:
1. Modell vom Typ x wird ausgewählt
2. Erhebung von Beispieldaten und Vorverarbeitung dieser Daten
3. Testen des Modells mit Hilfe der Beispieldaten
4. Modell liefert unzureichende Ergebnisse
5. Erhebung weiterer Daten (Menge und Typ)
6. Testen des Modells mit Hilfe der zusätzlich beschafften Daten
7. Modell liefert erneut unzureichende Ergebnisse
8. Auswahl eines Modells vom Typ x
9. Test des neuen Modells mit dem ersten Datensatz
10. Modell liefert zufriedenstellende Ergebnisse
Quellen
- ML4P Whitepaper (2020)
Fraunhofer
Nächste Schritte festlegen
Sollte die Machbarkeitsprüfung gescheitert sein, können Sie dennoch an anderer Stelle weitermachen und Ihr Geschäftsmodell losgelöst von KI weiterentwickeln.
Sollte eine erste Machbarkeit bewiesen worden sein, können Sie regulär in der Prozessassistenz fortfahren und im nächsten Teil Auswirkungen des KI-Use Cases auf Ihren Geschäftsmodellentwurf prüfen.