Datenpipeline umsetzen

Erstellung einer Pipeline ist ein zeit- und ressourcenintensiver Prozess, vor allem sinnvoll für Unternehmen mit speziellen Anforderungen und sehr großen Datenmengen. Für andere Unternehmen kann oft auf Standardtools zurückgegriffen werden.

Die Ausgestaltung der Datenpipeline baut dabei auf den Ergebnissen der Initialmodellbildung der vorherigen Phase auf und vertieft diese Vorgänge. Zugehörige Informationen sind unter Datenbereinigung und Feature Engineering zu finden.

Identifizieren von Datenquellen
-Datenquellen identifizieren und verstehen
-Bestimmung von Format, Struktur und Speicherort der Daten
Datenintegration
-Extrahieren und Kombinieren von Daten
Datentransformation
-Bereinigung, Filterung, Aggregation, Zusammenführung und Anreicherung von Daten
-für Datenanalyse liegen Daten in gewünschtem Format und Struktur vor
Laden von Daten
-Laden der Daten in ein Zielsystem zur Speicherung, Analyse und Weiterverarbeitung
-Daten sind für Endnutzer verfügbar
Automatisierung und Zeitplanung
-Einrichtung von Automatisierungs- und Planungsmechanismen zur Ausführung der Pipeline zu bestimmten Ereignissen (bspw. zu festen Zeitpunkten)
Überwachung und Bewertung
-Festlegung von Metriken zur Modellüberwachung
-Festlegung von Benachrichtigungen bei Problemen oder Störungen

Quellen

Was ist ein Datenpipeline?
IBM (o.J.)
Daten-Pipelines: Was sie sind und wie man eine von Grund auf neu aufbaut
SnapLogic (Dezember 2022)
Was ist eine Datenpipeline? Ein umfassender Leitfaden
Astera (Dezember 2023)