Datenvorverarbeitung - Datenbereinigung
Im ersten Schritt werden falsche, unvollständige oder fehlende Daten bereinigt, um die Datenqualität zu heben und folglich um Datenanalysen und Schlussfolgerungen zu verbessern.
- Identifizieren und Aussortieren fehlender Daten
Ist ein Datensatz unvollständig, bzw. fehlend (z.B. Fehlen eines Zeitstempels zu einem Messwert), kann er bei einer ausreichenden Menge anderer Daten übersprungen werden. Ein anderer Ansatz wäre eine Art Schätzung des Wertes durch die Bildung eines Medians oder Mittelwertes oder durch andere Verfahren wie die Regression.
- Identifizieren und Entfernen von Rauschen in Daten
Unter einem Rauschen in Daten werden große Datenmengen mit einer bestimmten Menge von bedeutungslosen Informationen verstanden. Solche Daten sind verzerrt, beschädigt oder können nicht interpretiert oder verstanden werden. Rauschen in Daten kann zufällig vorkommen oder auch systematisch durch fehlerhafte Messwerkzeuge entstehen. Insbesondere zufälliges Rauschen ist ein unvermeidbares Problem. Zum Entfernen von Rauschen werden statistische Analysen verwendet. Die Verwendung gleitender Durchschnitte kann bspw. verwendet werden, um Ausreißer zu glätten.
- Identifizieren und Entfernen von Duplikaten
Duplikate sind mehrfach auftretende identische Datensätze, die eine Verzerrung in den Daten darstellen und dadurch zu einer verringerten Leistung von Modellen führen. Wichtig ist hierbei aber zu erkennen, ob Datensätze tatsächlich Duplikate sind oder ob es sich nur um identische Ausprägungen handelt. Bei Messwerten können bspw. Zeitstempel Aufschluss geben. Andere Verfahren können die Zuweisung von Schlüsselattributen oder die Verwendung von Ansätzen zu relationalen Datenbanken sein, mit denen konsistente und duplikatfreie Datensätze in Form von Datenbanken erstellt werden können.
Quellen
- Wie man seine Daten vor der Verarbeitung vorbereitet: Ein kurzer Leitfaden zum Data Preprocessing
DataScientest (April 2023) - Rauschende Daten
Wikibrief (o.J.)