Überblick
In der Modellbildung erfolgt die Überführung des Modells aus der Entwicklungs- in die Testumgebung. Es handelt sich also noch um Laborbedingungen, ein Einsatz in der operativen Umgebung wird hier noch nicht umgesetzt.
Was ist zu tun?
Verschiedene ausgewählte Modelle sowie Test- und Validierungsdaten werden mit Hilfe einer Modellmanagementsoftware verwaltet und die Modellbildung in einem größeren Detaillierungsgrad als noch in der Machbarkeitsuntersuchung durchgeführt. Dafür wird zunächst das Modelltraining und anschließend Modelltests vorgestellt.
Was ist das Ergebnis?
Als Ergebnis liegen ein oder mehrere trainierte und getestete Modelle in einer Modellmanagementsoftware einschließlich zugehöriger Trainings- und Validierungsdaten vor.
Quellen
- verfügbar unter: Whitepaper: »Zukunftssichere Lösungen für ML« Fraunhofer IAIS
- KI-Lifecycle Management im industriellen Produktionsumfeld
Fraunhofer-Gesellschaft | KI-Fortschrittszentrum »Lernende Systeme und Kognitive Robotik« (o.J.) - In 5 Schritten zu Ihrem KI-Modell
Max-Ludwig Stadler (Februar 2020)
Modelle managen
Die Performance eines KI-Modells ist vorher schwer einschätzbar und muss durch Beobachtungen ermittelt werden. Selbst für Experten ist eine vorherige Einschätzung anhand von Erfahrungswerten schwierig.
Oft werden mehrere Modelle parallel getestet, da zum einen manche Modelle keine geeigneten Ergebnisse liefern und zum anderen um die Performance verschiedener Modelle miteinander vergleichen zu können.
Aus diesen Gründen werden Modellmanagement- bzw. Versionierungssoftware genutzt, die eine Verwaltung und Überwachung unterschiedlicher Modelle und Modellversionen ermöglichen. MLflow ist bspw. solch eine Software. Auf Datacamp finden Sie einige weitere nützliche Tools.
Quellen
- verfügbar unter: Whitepaper: »Zukunftssichere Lösungen für ML« Fraunhofer IAIS
- KI-Lifecycle Management im industriellen Produktionsumfeld
Fraunhofer-Gesellschaft | KI-Fortschrittszentrum »Lernende Systeme und Kognitive Robotik« (o.J.)
Modelle trainieren
Für das Modelltraining wird der bereinigte Datensatz in einem Trainings- und einen Validierungsdatensatz aufgeteilt. Der Trainingsdatensatz sollte dabei ca. 80% der Daten umfassen und der Validierungsdatensatz ca. 20%.
Dieser aufgeteilte Datensatz wird für die verschiedenen zu trainierenden Modelle verwendet.
Anhand des Datensatzes erkennen die Modelle eigenständig Muster und passen die eigenen Parameter an. Die Modelle lernen so anhand der bereitgestellten Daten und passen Modellparameter an.
Quellen
- In 5 Schritten zu Ihrem KI-Modell
Max-Ludwig Stadler (Februar 2020)
Modelle testen
Um die Qualität der trainierten Modelle zu prüfen, wird der noch nicht verwendete Validierungsdatensatz verwendet. Die im vorherigen Schritt vortrainierten Modelle werden mit Hilfe des Validierungsdatensatzes untersucht. Diese Daten kennen die Modelle noch nicht. Somit lässt sich überprüfen, ob ein KI-Modell die richtigen Zusammenhänge im Trainingsdatensatz erkannt hat und diese auf unbekannte Daten übertragen kann. Es wird hier also das vorgeschlagene Ergebnis der KI mit dem tatsächlich eingetretenen Ergebnis aus der Vergangenheit verglichen.
Die Bewertung des Modells erfolgt anhand selbstfestgelegter Zielmetriken wie bspw. Genauigkeit, Präzision, Recall, F1-Score und Spezifität.
Sollte ein Modell noch nicht die gewünschte Leistung bringen, sollte erneut geprüft werden, ob die richtigen Daten in der richtigen Qualität vorliegen und ggf. diesen Prozess wiederholen.
Quellen
- In 5 Schritten zu Ihrem KI-Modell
Max-Ludwig Stadler (Februar 2020) - Accuracy, Precision, Recall, F1-Score und Specificity
Artem Oppermann (o.J.)