Überblick

Bei einer Datenpipeline handelt es sich um ein Verfahren zur Aufnahme von Rohdaten aus verschiedenen Datenquellen, Verarbeitung dieser Daten und Portierung hin zu einem Datenspeicher, damit sie später zur Analyse bereitstehen.

Was ist zu tun?

Zunächst wird vorgestellt, welche Arten von Datenpipelines es gibt und für welche Zwecke diese zum Einsatz kommen. Da insbesondere Aspekte des Datenschutzes beachtet werden müssen, werden dazu ebenfalls kurze Hinweise und Informationsquellen aufgezeigt.

Beim Aufbau einer Datenpipeline handelt sich dementsprechend um drei Schritte:

Die Datenverarbeitung umfasst verschiedene Datentransformationen wie Filterung, Maskierung und Aggregation, durch die eine Datenintegration und -standardisierung ermöglicht wird.

Was ist das Ergebnis?

Eine gut funktionierende Datenpipeline stellt die Grundlage für Datenprojekte dar, da nicht nutzbare Rohdaten aus verschiedensten Quellen automatisiert aufgenommen und verarbeitet werden und so zur Nutzung in einer (oftmals) einzigen Quelle bereitstehen. Damit können Daten unternehmensübergreifend genutzt werden und Silos werden aufgelöst.

Quellen