====== Arten von Datenpipelines ====== Grundsätzlich können zwei Hauptarten von Datenpipelines unterschieden werden: * Stapelverarbeitung * Streamingdaten **Stapelverarbeitung** \\ Bei der Stapelverarbeitung werden "Stapel" von Daten in festen Zeitintervallen verarbeitet und in den Datenspeicher geladen. In der Regel werden sehr große Mengen an Daten verarbeitet, die das Gesamtsystem beeinflussen können. Durch die Stapelverarbeitung werden andere Workloads aber weniger beeinflusst, da die sehr großen Datenmengen in kleineren Stapeln verarbeitet werden. In vielen Fällen ist die Stapelverarbeitung die optimale Pipeline. **Streamingdaten** \\ Streamingdaten werden verwendet, falls Daten kontinuierlich aktualisiert werden müssen. Die Verarbeitung der Daten erfolgt in Echtzeit, sie werden kontinuierlich von der Quelle hin zum Ziel übertragen. Zwar weisen Streamingdaten eine geringere Latenz als die Stapelverarbeitung auf, sie sind aber auch weniger zuverlässig (z.B. durch lange Warteschlangen der Pipeline). Zudem weisen sie eine komplexere Architektur auf und zugrundeliegende Software muss ständig eingeschaltet sein und überwacht werden. ===== Quellen ===== * [[https://www.ibm.com/de-de/topics/data-pipeline|Was ist ein Datenpipeline?]] \\ IBM (o.J.) * [[https://www.snaplogic.com/de/blog/data-pipelines-what-they-are-and-how-to-build-one-from-scratch|Daten-Pipelines: Was sie sind und wie man eine von Grund auf neu aufbaut]] \\ SnapLogic (Dezember 2022)