WiWiEn

Plattform zur Entwicklung KI-basierter Geschäftsmodelle

Datenpipeline umsetzen

Erstellung einer Pipeline ist ein zeit- und ressourcenintensiver Prozess, vor allem sinnvoll für Unternehmen mit speziellen Anforderungen und sehr großen Datenmengen. Für andere Unternehmen kann oft auf Standardtools zurückgegriffen werden.

Die Ausgestaltung der Datenpipeline baut dabei auf den Ergebnissen der Initialmodellbildung der vorherigen Phase auf und vertieft diese Vorgänge. Zugehörige Informationen sind unter Datenbereinigung und Feature Engineering zu finden.

  1. Identifizieren von Datenquellen
    -Datenquellen identifizieren und verstehen
    -Bestimmung von Format, Struktur und Speicherort der Daten
  2. Datenintegration
    -Extrahieren und Kombinieren von Daten
  3. Datentransformation
    -Bereinigung, Filterung, Aggregation, Zusammenführung und Anreicherung von Daten
    -für Datenanalyse liegen Daten in gewünschtem Format und Struktur vor
  4. Laden von Daten
    -Laden der Daten in ein Zielsystem zur Speicherung, Analyse und Weiterverarbeitung
    -Daten sind für Endnutzer verfügbar
  5. Automatisierung und Zeitplanung
    -Einrichtung von Automatisierungs- und Planungsmechanismen zur Ausführung der Pipeline zu bestimmten Ereignissen (bspw. zu festen Zeitpunkten)
  6. Überwachung und Bewertung
    -Festlegung von Metriken zur Modellüberwachung
    -Festlegung von Benachrichtigungen bei Problemen oder Störungen

Quellen