Eine Data Pipeline ist ein System, das Daten aus verschiedenen Quellen an ein Ziel verschiebt. Sie ist ein Bestandteil der Dateninfrastruktur eines Unternehmens. Die Dateninfrastruktur beschreibt die einzigartige Kombination aus Datensystemen, Prozessen und Architekturen, die es Daten ermöglichen, ihre Funktion in einem Unternehmen zu erfüllen. Die Data Pipeline ist das Bindeglied dieser Infrastruktur.
Im Kontext der Dateninfrastruktur können die Quellen, die Daten für die Data Pipeline liefern, Datenbanken, SaaS-Anwendungen, Datenströme oder Data Lakes sein. Das Ziel kann eine andere Datenbank, ein Data Warehouse oder ein operatives System sein, in dem die Daten analysiert und zur Erfüllung von Geschäftszielen genutzt werden. Data Pipelines können viele verschiedene Formen annehmen, abhängig von ihrer Quelle und ihrem Ziel und letztendlich vom geschäftlichen Anwendungsfall.
Solange Daten von Punkt A nach Punkt B verschoben werden, kann man es als Data Pipeline bezeichnen. Sie haben wahrscheinlich bereits Data Pipelines in Ihrem Unternehmen in irgendeiner Form. Data Pipelines haben viele verschiedene Namen, z. B. ETL (Extrahieren, Transformieren, Laden), ELT (Extrahieren, Laden, Transformieren), Datenaufnahme oder Datenintegration. Tatsächlich werden Sie heutzutage kaum ein Unternehmen von nennenswerter Größe finden, das nicht auf Data Pipelines angewiesen ist. Fast jede Branche ist auf schnelle Datenverarbeitung, Automatisierung, Analysen und Business Intelligence angewiesen.
Durch die Verbindung verschiedener Datensysteme bedienen Data Pipelines eine Vielzahl von Geschäftsanforderungen. Beispiele: Überwachung und Analyse der Finanzaktivitäten zur schnellen Betrugsprüfung; Verfolgung von Lagerbeständen zur Rationalisierung von Versand und Empfang; Erfassung von Kundendaten aus Online-Shops zur Personalisierung des Einkaufserlebnisses; Sammeln von Feedback, um den Erfolg eines Produkts, einer Dienstleistung oder einer Kampagne zu ermitteln. Keiner dieser Arbeitsabläufe wäre möglich, wenn Sie die Daten nicht zwischen verschiedenen Systemen synchronisieren könnten.
Die Menge der zu verschiebenden Daten ist fast immer enorm. Die Verarbeitung von Petabytes an Rohdaten und deren Umwandlung in verwertbare Informationen ist kein kleines Kunststück. Es ist eine gewaltige Aufgabe, die Unternehmen täglich bewältigen. Wie also bestimmen Sie den besten Weg, um eine Data Pipeline für Ihr Unternehmen zu erstellen oder zu optimieren? Das ist einfacher, wenn Sie mehr darüber verstehen, wie Data Pipelines funktionieren.
Eine Data Pipeline ist wie jede andere Pipeline: z. B. eine Pipeline, die Wasser von der Quelle (lokaler Stausee) zum Ziel (Ihrem Wasserhahn) transportiert. Sie kann sich verzweigen oder Wasser aus mehreren Quellen beziehen und tatsächlich zu vielen verschiedenen Zielen in Ihrem Haus führen. Wenn sie funktioniert, denken Sie kaum darüber nach. Ebenso erwarten Sie, dass das Wasser, das aus Ihrem Wasserhahn kommt, sauber und trinkbar ist. Unterwegs muss es aufbereitet werden. Ähnlich verhält es sich mit Daten.
Einige Data Pipelines verschieben lediglich Rohdaten von der Quelle in einen Speicher, z. B. einen Data Lake. Aber das skaliert nicht gut. Die meisten größeren Unternehmen und Konzerne verwenden fortschrittlichere Data-Pipeline-Architekturen, die grundlegende Datentransformationen wie Aggregation oder Umformatierung zur Anpassung an Schemata umfassen.
Wie funktioniert dieser Prozess? Er besteht aus drei Teilen: Erfassung aus der Quelle, Transformation und Ziel. Die Datenquelle ist der Ort, von dem die Daten stammen. Die meisten Data Pipelines beziehen Informationen aus mehreren Quellen – das können Anwendungs-APIs, relationale Datenbanken, CRMs, Social-Media-Tools usw. sein. Die Daten können stapelweise oder mithilfe von ereignisbasierter Datenerfassung in Echtzeit gesammelt werden.
Bevor die Daten ihr Ziel erreichen, werden sie in der Regel kombiniert, bearbeitet und gemäß den Anforderungen des Unternehmens standardisiert. Der Transformationsschritt ist nach der grundlegenden Definition einer Data Pipeline nicht zwingend erforderlich, aber er ist in den meisten Arbeitsabläufen von entscheidender Bedeutung. Er stellt sicher, dass die Datenspeicher des Unternehmens (Datenbanken, Data Warehouses oder Data Lakes) nicht zu Datensümpfen werden. Mit anderen Worten: Er stellt sicher, dass die Daten am Zielort verwendbar sind.
Das Ziel ist das System, in dem die Daten aus der Data Pipeline austreten. Typischerweise ist dies das Data Warehouse des Unternehmens. Data Warehouses sind für die Bewältigung von Aufgaben mit hohem Datenanalyseaufwand, Data Science und Machine Learning konzipiert. Hier erstellen Analysten und Data Scientists Datenmodelle und verwandeln Daten in Informationen. Es gibt jedoch viele verschiedene Zielsysteme: operative Systeme wie Dashboards, SaaS-Anwendungen und Datenvisualisierungstools.
Die beiden Haupttypen von Data Pipelines sind Batch-Pipelines und Echtzeit-Pipelines. Batch-Pipelines verschieben große Datenmengen – sogenannte Batches – in regelmäßigen Abständen. Die Daten werden nicht in Echtzeit verschoben. Echtzeit-Pipelines verarbeiten Daten nahezu sofort. Bei der Echtzeitanalyse oder Stream-Analyse geht es darum, Erkenntnisse aus kontinuierlichen Datenströmen innerhalb von Sekunden zu gewinnen und zu formen.
Data Pipelines werden in vielen Anwendungsfällen eingesetzt, darunter Anwendungen, Datenanalyse und Datenzentralisierung. Egal, ob Ihr Unternehmen Produkte oder Dienstleistungen verkauft, Finanzen verwaltet, Logistik abwickelt oder Wissen verarbeitet, es ist auf Daten angewiesen. Um diese Daten richtig nutzen zu können, ist eine Datenintegration erforderlich. Und die Datenintegration wird durch Data Pipelines bereitgestellt.