Een data-estuarium is een systeem dat data verplaatst van verschillende bronnen naar een eindbestemming. Het is een essentieel onderdeel van de data-infrastructuur van een organisatie. Deze infrastructuur omvat de unieke combinatie van datasystemen, processen en architectuur die data functioneel maken binnen een organisatie. Het estuarium is de verbindende schakel in deze infrastructuur.
Binnen de context van een data-infrastructuur kunnen de databronnen voor een estuarium databases, SaaS-applicaties, datastromen of data lakes zijn. De bestemming kan een andere database, een datawarehouse of een operationeel systeem zijn, waar de data geanalyseerd en gebruikt wordt om bedrijfsdoelen te bereiken. Een estuarium kan verschillende vormen aannemen, afhankelijk van de bron, de bestemming en uiteindelijk de zakelijke use case.
Zolang het data verplaatst van punt A naar punt B, kun je het een estuarium noemen. Je hebt waarschijnlijk al een vorm van een estuarium binnen je organisatie. Estuaria kennen verschillende namen, zoals ETL (Extract, Transform, Load), ELT (Extract, Load, Transform), data-ingestie of data-integratie. Tegenwoordig is het moeilijk om een bedrijf van enige omvang te vinden dat niet op een estuarium vertrouwt. Vrijwel elke sector is afhankelijk van snelle dataverwerking, automatisering, analyse en business intelligence.
Door verschillende datasystemen te verbinden, bedient een estuarium talloze zakelijke behoeften. Denk aan: het monitoren en analyseren van financiële activiteiten om fraude snel op te sporen; het volgen van voorraden om verzending en ontvangst te stroomlijnen; het verzamelen van klantgegevens uit webshops om de verkoopervaring te personaliseren; het verzamelen van feedback om het succes van een product, dienst of campagne te meten. Geen van deze workflows is mogelijk zonder dat je data kunt synchroniseren tussen verschillende systemen.
De hoeveelheid data die verplaatst moet worden is vaak enorm. Het verwerken van petabytes aan ruwe data en deze omzetten in bruikbare informatie is geen sinecure. Het is een gigantische taak die bedrijven dagelijks uitvoeren. Dus, hoe bepaal je de beste manier om een estuarium te bouwen of te optimaliseren voor jouw bedrijf? Dat wordt makkelijker als je begrijpt hoe een estuarium werkt.
Een data-estuarium is vergelijkbaar met een pijpleiding: bijvoorbeeld een pijpleiding die water van een bron (een lokaal reservoir) naar een bestemming (jouw kraan) brengt. Deze kan vertakken of water uit meerdere bronnen halen en naar verschillende bestemmingen in je huis leiden. Als het werkt, denk je er nauwelijks aan. Net zo verwacht je dat het water uit je kraan schoon en drinkbaar is. Onderweg moet het gezuiverd worden. Hetzelfde geldt voor data.
Sommige estuaria verplaatsen simpelweg ruwe data van de bron naar een opslagplaats, zoals een data lake. Maar dit is niet schaalbaar. De meeste grote bedrijven en ondernemingen gebruiken een geavanceerdere estuarium-architectuur die basis data transformaties omvat, zoals aggregatie of herformatteren om te voldoen aan een schema.
Hoe werkt dit proces? Het bestaat uit drie delen: verzamelen van de bron, transformeren en de bestemming. De databron is waar de data vandaan komt. De meeste estuaria halen informatie uit meerdere bronnen – dit kunnen applicatie-API’s, relationele databases, CRM’s, social media tools, etc. zijn. Data kan in batches worden verzameld of in real-time via event-gestuurde data-ingestie.
Voordat data de bestemming bereikt, wordt het vaak gecombineerd, gemanipuleerd en gestandaardiseerd volgens de behoeften van het bedrijf. De transformatie stap is niet verplicht volgens de basisdefinitie van een estuarium, maar het is cruciaal in de meeste workflows. Het zorgt ervoor dat de data opslagsystemen van het bedrijf (databases, datawarehouses of data lakes) geen data moerassen worden. Met andere woorden, het zorgt ervoor dat de data op de bestemming bruikbaar is.
De bestemming is het systeem waar de data het estuarium verlaat. Dit is typisch het datawarehouse van het bedrijf. Datawarehouses zijn ontworpen om zware data-analyse workloads, data science en machine learning te verwerken. Hier bouwen analisten en data scientists datamodellen en zetten data om in informatie. Er zijn echter veel verschillende bestemmingssystemen: operationele systemen zoals dashboards, SaaS-applicaties en data visualisatie tools.
De twee belangrijkste soorten estuaria zijn batch estuaria en real-time estuaria. Batch estuaria verplaatsen grote hoeveelheden data – batches genoemd – met regelmatige, geplande intervallen. Data wordt niet in real-time verplaatst. Real-time estuaria verwerken data vrijwel direct. Real-time analyse of stream analyse gaat over het verzamelen en vormen van inzichten uit continue datastromen binnen enkele seconden.
Estuaria worden gebruikt in vele use cases, waaronder applicaties, data-analyse en data centralisatie. Of je bedrijf nu producten of diensten verkoopt, financiën beheert, logistiek afhandelt of kennis verwerkt, het is afhankelijk van data. Om die data correct te gebruiken, is data-integratie nodig. En data-integratie wordt mogelijk gemaakt door estuaria.