Un Estuary es un sistema que mueve datos desde diversas fuentes a un destino final. Es un componente de la infraestructura de datos de una organización. La infraestructura de datos describe la combinación única de sistemas de datos, procesos y arquitectura que permiten que los datos cumplan su función dentro de una organización. Un Estuary es el tejido conectivo de esta infraestructura.
En el contexto de la infraestructura de datos, las fuentes que proporcionan datos a un Estuary pueden ser bases de datos, aplicaciones SaaS, flujos de datos o data lakes. El destino puede ser otra base de datos, un data warehouse o un sistema operativo donde los datos se analizarán y se aprovecharán para cumplir con los objetivos comerciales. Un Estuary puede adoptar muchas formas diferentes, dependiendo de sus fuentes y destinos y, en última instancia, del caso de uso empresarial.
Siempre que mueva datos del punto A al punto B, puede llamarlo Estuary. Es posible que ya tenga un Estuary en su organización de alguna forma. Los Estuary tienen muchos nombres diferentes, por ejemplo, ETL (extraer, transformar, cargar), ELT (extraer, cargar, transformar), ingesta de datos o integración de datos. De hecho, hoy en día, sería difícil encontrar una empresa de tamaño considerable que no dependa de un Estuary. Casi todas las industrias dependen del procesamiento rápido de datos, la automatización, el análisis y la inteligencia empresarial.
Al conectar diferentes sistemas de datos, un Estuary sirve para una multitud de necesidades empresariales. Por ejemplo: monitorear y analizar la actividad financiera para verificar rápidamente el fraude; rastrear el inventario para optimizar el envío y la recepción; recopilar datos de clientes de las tiendas online para personalizar las experiencias de compra; recopilar comentarios para determinar el éxito de un producto, servicio o campaña. Ninguno de estos flujos de trabajo sería posible si no pudiera sincronizar datos entre diferentes sistemas.
El volumen de datos que deben moverse es casi siempre masivo. Procesar petabytes de datos sin procesar y convertirlos en información útil no es poca cosa. Es una tarea monumental que las empresas realizan a diario. Entonces, ¿cómo determina la mejor manera de construir u optimizar un Estuary para su negocio? Eso será más fácil si comprende mejor cómo funciona un Estuary.
Un Estuary es como cualquier otra tubería: por ejemplo, una tubería que toma agua de una fuente (el depósito local) y la lleva a un destino (su grifo). Puede ramificarse o tomar agua de múltiples fuentes y, de hecho, ir a muchos destinos diferentes alrededor de su casa. Cuando funciona, apenas piensa en ello. Del mismo modo, espera que el agua que sale de su grifo esté limpia y sea potable. En el camino, debe ser tratada. Lo mismo ocurre con los datos.
Algunos Estuary simplemente mueven datos sin procesar de la fuente al almacenamiento, como un data lake. Pero esto no escala bien. La mayoría de las empresas y negocios más grandes utilizan una arquitectura de Estuary más avanzada que incluye transformaciones de datos básicas como la agregación o el remodelado para que se ajusten a un esquema.
¿Cómo funciona este proceso? Consta de tres partes: recopilación de la fuente, transformación y destino. La fuente de datos es de donde provienen los datos. La mayoría de los Estuary extraen información de múltiples fuentes: pueden ser API de aplicaciones, bases de datos relacionales, CRM, herramientas de redes sociales, etc. Los datos se pueden recopilar por lotes o utilizando la recopilación de datos basada en eventos en tiempo real.
Antes de que los datos lleguen a su destino, normalmente se combinan, manipulan y estandarizan según las necesidades de la empresa. El paso de transformación no es obligatorio según la definición básica de un Estuary, pero es fundamental en la mayoría de los flujos de trabajo. Garantiza que los sistemas de almacenamiento de datos de la empresa (bases de datos, data warehouses o data lakes) no se conviertan en pantanos de datos. En otras palabras, asegura que los datos en el destino sean utilizables.
El destino es el sistema donde los datos salen del Estuary. Normalmente es el data warehouse de la empresa. Los data warehouses están diseñados para manejar cargas de trabajo pesadas de análisis de datos, ciencia de datos y aprendizaje automático. Aquí es donde los analistas y científicos de datos construirán modelos de datos y convertirán los datos en información. Sin embargo, hay muchos sistemas de destino diferentes: sistemas operativos como paneles, aplicaciones SaaS y herramientas de visualización de datos.
Los dos tipos principales de Estuary son los Estuary por lotes y los Estuary en tiempo real. Los Estuary por lotes mueven grandes cantidades de datos, conocidos como lotes, a intervalos programados regularmente. Los datos no se mueven en tiempo real. Los Estuary en tiempo real procesan datos casi instantáneamente. El análisis en tiempo real o el análisis de streaming se trata de recopilar y formar información a partir de flujos de datos continuos en cuestión de segundos.
Los Estuary se utilizan en muchos casos de uso, incluidas las aplicaciones, el análisis de datos y la centralización de datos. Ya sea que su empresa venda productos o servicios, administre finanzas, maneje logística o procese conocimiento, se basa en datos. Para utilizar esos datos correctamente, se requiere la integración de datos. Y la integración de datos la proporcionan los Estuary.