Datenvorverarbeitung - Feature Engineering

Feature Engineering beschreibt den Prozess zur Veränderung von Daten und Merkmalen, um die Leistung der benutzten Modelle zu verbessern und damit die Ergebnisqualität zu erhöhen. Damit wird also der Informationsgehalt der Daten erhöht, wodurch Muster und Zusammenhänge besser erkannt werden.

Verschiedene Algorithmen arbeiten unterschiedlich gut mit unterschiedlichen Skalierungen von Daten. Daher kann eine Anpassung des Skalenniveaus nötig sein, um eine bestmögliche Funktionsweise eines Algorithmus zu gewährleisten.

So kann es bspw. nötig sein, anhand des Maximal- und Minimalwertes einer Datenmenge die Werte auf ein Niveau von 0 bis 1 zu skalieren. Das wird Normalisierung genannt. Bei der Standardisierung wird hingegen ein Mittelwert mit dem Wert 0 gebildet und die restlichen Werte in Form einer Standardabweichung von höchstens 1 abgebildet.

Die Datenreduktion hat die Minimierung von Datenmengen als Ziel, um Komplexität zu reduzieren, die Leistung von Modellen zu erhöhen, Trainingszeit zu verkürzen und auch um die Speichermenge zu verringern (Kostenverringerung). Erreicht wird das durch das Entfernen irrelevanter oder redundanter Daten oder auch durch die Auswahl und Bearbeitung von Teilmengen. Zur Umsetzung gibt es verschiedene Verfahren, wie z.B. Feature Selection, Feature Extraction oder das Sampling. Sie zielen darauf ab, irrelevante oder redundante Daten zu entfernen

Die Diskretisierung beschreibt die Umwandlung von kontinuierlichen Werten in diskrete Werte. Ein Beispiel dafür ist bspw. die Einteilung des Alters von befragten Personen in einer Umfrage in Altersgruppe (bspw. 0-18, 19-65, 65-… Jahre). Durch solch eine Diskretisierung arbeiten manche Algorithmen effizienter und erzeugen zuverlässigere Werte. Allerdings muss beachtet werden, dass ein Informationsverlust mit einher gehen kann.

Die Kodierung von Merkamlen beschreibt die Umwandlung von nicht-numerischen Merkmalen in numerische Merkmale. Viele Modelle können nur numerische Werte verarbeiten, weshalb hier eine Kodierung erfolgen muss. So können bspw. Farben und Farbmischungen Zahlen zugeordnet werden. Neben der ganzzahligen Kodierung ist das One-Hot-Coding ein weiteres gebräuchliches Verfahren

Quellen