Überblick
Bei einer Datenpipeline handelt es sich um ein Verfahren zur Aufnahme von Rohdaten aus verschiedenen Datenquellen, Verarbeitung dieser Daten und Portierung hin zu einem Datenspeicher, damit sie später zur Analyse bereitstehen.
Was ist zu tun?
Zunächst wird vorgestellt, welche Arten von Datenpipelines es gibt und für welche Zwecke diese zum Einsatz kommen. Da insbesondere Aspekte des Datenschutzes beachtet werden müssen, werden dazu ebenfalls kurze Hinweise und Informationsquellen aufgezeigt.
Beim Aufbau einer Datenpipeline handelt sich dementsprechend um drei Schritte:
- Übernahme von Daten an der Datenquelle
- Verarbeitung oder Umwandlung der Daten
- Weiterleitung der Daten zu einem Zielsystem
Die Datenverarbeitung umfasst verschiedene Datentransformationen wie Filterung, Maskierung und Aggregation, durch die eine Datenintegration und -standardisierung ermöglicht wird.
Was ist das Ergebnis?
Eine gut funktionierende Datenpipeline stellt die Grundlage für Datenprojekte dar, da nicht nutzbare Rohdaten aus verschiedensten Quellen automatisiert aufgenommen und verarbeitet werden und so zur Nutzung in einer (oftmals) einzigen Quelle bereitstehen. Damit können Daten unternehmensübergreifend genutzt werden und Silos werden aufgelöst.
Quellen
- Was ist ein Datenpipeline?
IBM (o.J.) - Daten-Pipelines: Was sie sind und wie man eine von Grund auf neu aufbaut
SnapLogic (Dezember 2022)
Arten von Datenpipelines
Grundsätzlich können zwei Hauptarten von Datenpipelines unterschieden werden:
- Stapelverarbeitung
- Streamingdaten
Stapelverarbeitung
Bei der Stapelverarbeitung werden „Stapel“ von Daten in festen Zeitintervallen verarbeitet und in den Datenspeicher geladen. In der Regel werden sehr große Mengen an Daten verarbeitet, die das Gesamtsystem beeinflussen können. Durch die Stapelverarbeitung werden andere Workloads aber weniger beeinflusst, da die sehr großen Datenmengen in kleineren Stapeln verarbeitet werden. In vielen Fällen ist die Stapelverarbeitung die optimale Pipeline.
Streamingdaten
Streamingdaten werden verwendet, falls Daten kontinuierlich aktualisiert werden müssen. Die Verarbeitung der Daten erfolgt in Echtzeit, sie werden kontinuierlich von der Quelle hin zum Ziel übertragen. Zwar weisen Streamingdaten eine geringere Latenz als die Stapelverarbeitung auf, sie sind aber auch weniger zuverlässig (z.B. durch lange Warteschlangen der Pipeline). Zudem weisen sie eine komplexere Architektur auf und zugrundeliegende Software muss ständig eingeschaltet sein und überwacht werden.
Quellen
- Was ist ein Datenpipeline?
IBM (o.J.) - Daten-Pipelines: Was sie sind und wie man eine von Grund auf neu aufbaut
SnapLogic (Dezember 2022)
Daten anonymisieren
Gemäß der Datenschutzgrundverordnung (DS-GVO) und auch des europäischen Data Acts kann es notwendig sein, personenbezogene Daten zu anonymisieren. Die Anonymisierung von Daten hat als Ziel, einen Rückschluss von Daten auf Personen zu verhindern. Anonymisierte Daten fallen dann nicht mehr in den Bereich der DS-GVO. Dabei sollte aber eine ausreichende Sicherheit bestehen, dass eine Anonymisierung gemäß gesetzlicher Standards erfolgt ist.
Zur Anonymisierung stehen aus technischer Sicht verschiedene Methoden zur Auswahl. Grundlegend kann dabei zwischen Randomisierung (allgemein Zufallszuteilung) und Generalisierung (Zusammenfassen von Informationen zu allgemeineren Informationen).
Sollte aus verschiedenen Gründen eine Anonymisierung nicht umsetzbar sein, kann auch auf die Pseudonymisierung zurückgegriffen werden. Dabei werden Daten so aufgeteilt, dass eine Identifizierung einer Person nur unter Hinzuziehen zusätzlicher Informationen möglich ist. Diese zusätzlichen Informationen sind aber unter geeigneten technischen und organisatorischen Maßnahmen getrennt aufzubewahren. Pseudonymisierte Daten bleiben aber weiterhin im Anwendungsbereich der DS-GVO.
Quellen
- Praxisleitfaden zum Anonymisieren personenbezogener Daten
Stiftung Datenschtz (Dezember 2022) - EU verabschiedet Data Act
Bundesministerium für Digitales und Verkehr (Dezember 2023)
Weiterführende Literatur
- Praxisleitfaden zum Anonymisieren personenbezogener Daten
Stiftung Datenschtz (Dezember 2022) - DS-GVO
dejure.org (o.J.)
Datenpipeline umsetzen
Erstellung einer Pipeline ist ein zeit- und ressourcenintensiver Prozess, vor allem sinnvoll für Unternehmen mit speziellen Anforderungen und sehr großen Datenmengen. Für andere Unternehmen kann oft auf Standardtools zurückgegriffen werden.
Die Ausgestaltung der Datenpipeline baut dabei auf den Ergebnissen der Initialmodellbildung der vorherigen Phase auf und vertieft diese Vorgänge. Zugehörige Informationen sind unter Datenbereinigung und Feature Engineering zu finden.
- Identifizieren von Datenquellen
-Datenquellen identifizieren und verstehen
-Bestimmung von Format, Struktur und Speicherort der Daten - Datenintegration
-Extrahieren und Kombinieren von Daten - Datentransformation
-Bereinigung, Filterung, Aggregation, Zusammenführung und Anreicherung von Daten
-für Datenanalyse liegen Daten in gewünschtem Format und Struktur vor - Laden von Daten
-Laden der Daten in ein Zielsystem zur Speicherung, Analyse und Weiterverarbeitung
-Daten sind für Endnutzer verfügbar - Automatisierung und Zeitplanung
-Einrichtung von Automatisierungs- und Planungsmechanismen zur Ausführung der Pipeline zu bestimmten Ereignissen (bspw. zu festen Zeitpunkten) - Überwachung und Bewertung
-Festlegung von Metriken zur Modellüberwachung
-Festlegung von Benachrichtigungen bei Problemen oder Störungen
Quellen
- Was ist ein Datenpipeline?
IBM (o.J.) - Daten-Pipelines: Was sie sind und wie man eine von Grund auf neu aufbaut
SnapLogic (Dezember 2022) - Was ist eine Datenpipeline? Ein umfassender Leitfaden
Astera (Dezember 2023)