Arten von Datenpipelines

Grundsätzlich können zwei Hauptarten von Datenpipelines unterschieden werden:

Stapelverarbeitung
Streamingdaten

Stapelverarbeitung
Bei der Stapelverarbeitung werden „Stapel“ von Daten in festen Zeitintervallen verarbeitet und in den Datenspeicher geladen. In der Regel werden sehr große Mengen an Daten verarbeitet, die das Gesamtsystem beeinflussen können. Durch die Stapelverarbeitung werden andere Workloads aber weniger beeinflusst, da die sehr großen Datenmengen in kleineren Stapeln verarbeitet werden. In vielen Fällen ist die Stapelverarbeitung die optimale Pipeline.

Streamingdaten
Streamingdaten werden verwendet, falls Daten kontinuierlich aktualisiert werden müssen. Die Verarbeitung der Daten erfolgt in Echtzeit, sie werden kontinuierlich von der Quelle hin zum Ziel übertragen. Zwar weisen Streamingdaten eine geringere Latenz als die Stapelverarbeitung auf, sie sind aber auch weniger zuverlässig (z.B. durch lange Warteschlangen der Pipeline). Zudem weisen sie eine komplexere Architektur auf und zugrundeliegende Software muss ständig eingeschaltet sein und überwacht werden.

Quellen

Was ist ein Datenpipeline?
IBM (o.J.)
Daten-Pipelines: Was sie sind und wie man eine von Grund auf neu aufbaut
SnapLogic (Dezember 2022)

Weiterlesen: Anonymisierung von und Verzerrungen in Daten

WiWiEn

Plattform zur Entwicklung KI-basierter Geschäftsmodelle

Arten von Datenpipelines

Quellen