Estuaryとは、複数のソースからデータを収集し、最終的な目的地に転送するデータパイプラインシステムです。組織のデータインフラストラクチャの重要な構成要素であり、データが組織内でその機能を果たすことを可能にする、データシステム、プロセス、アーキテクチャの独自の組み合わせを指します。Estuaryはこのインフラストラクチャの結合組織と言えるでしょう。
データインフラストラクチャのコンテキストでは、Estuaryへのデータソースは、データベース、SaaSアプリケーション、データストリーム、データレイクなど、多岐にわたります。目的地は、データが分析され、ビジネス目標の達成に活用される別のデータベース、データウェアハウス、または運用システムです。Estuaryは、そのソースと目的地、そして最終的にはビジネスのユースケースに応じて、さまざまな形態をとることができます。
データをポイントAからポイントBに移動させるものであれば、Estuaryと呼ぶことができます。あなたの組織には、すでに何らかの形でEstuaryが存在しているかもしれません。Estuaryは、ETL(抽出、変換、ロード)、ELT(抽出、ロード、変換)、データインジェスト、データ統合など、さまざまな名前で呼ばれています。実際、今日では、Estuaryに依存せずに運営されている大規模な企業を見つけることは困難です。ほぼすべての業界が、迅速なデータ処理、自動化、分析、そしてビジネスインテリジェンスに依存しています。
Estuaryは、さまざまなデータシステムを接続することにより、多くのビジネスニーズに対応します。例えば、不正を迅速にチェックするための財務活動の監視と分析、出荷と受け取りを合理化するための在庫の追跡、オンラインストアからの顧客データの収集による販売エクスペリエンスのパーソナライズ、製品、サービス、またはキャンペーンの成功を判断するためのフィードバックの収集などです。これらのワークフローは、異なるシステム間でデータを同期できない限り、実現不可能です。
移動する必要のあるデータ量は、ほとんどの場合膨大です。ペタバイト単位の生データを処理し、有用な情報に変換することは容易ではありません。これは、企業が日々行っている巨大なタスクです。では、どのようにして、ビジネスに最適なEstuaryを構築または最適化する方法を決定すればよいのでしょうか?Estuaryの仕組みを理解することで、それが容易になります。
Estuaryは、他のパイプラインと同様です。例えば、水源(地元の貯水池)から水を取り、目的地(あなたの蛇口)に運ぶパイプラインを考えてみてください。それは分岐したり、複数の水源から水を取り込んだり、実際にあなたの家の周りの複数の異なる目的地に水を供給したりすることができます。それが機能しているとき、あなたはほとんどそれを意識しません。同様に、あなたは蛇口から出てくる水が清潔で飲用可能であることを期待します。途中で、それは処理されなければなりません。データも同じです。
一部のEstuaryは、単に生データをソースからデータレイクなどのストレージに移動するだけです。しかし、これはうまく拡張しません。ほとんどの大企業は、集計やスキーマに適合させるための再フォーマットなどの基本的なデータ変換を含む、より高度なEstuaryアーキテクチャを使用しています。
このプロセスはどのように機能するのでしょうか?ソースからの収集、変換、そして目的地の3つの部分で構成されています。データソースは、データの発生元です。ほとんどのEstuaryは、アプリケーションAPI、リレーショナルデータベース、CRM、ソーシャルメディアツールなど、複数のソースから情報を取得します。データは、バッチで収集することも、リアルタイムのイベントベースの収集を使用することもできます。
データが目的地に到着する前に、通常、ビジネスニーズに合わせて結合、操作、標準化されます。変換ステップは、Estuaryの基本的な定義では必須ではありませんが、ほとんどのワークフローでは非常に重要です。これは、企業のデータストレージシステム(データベース、データウェアハウス、またはデータレイク)がデータの沼にならないようにします。言い換えれば、目的地のデータが使用可能であることを保証します。
目的地は、データがEstuaryから出ていくシステムです。典型的なのは、企業のデータウェアハウスです。データウェアハウスは、重いデータ分析ワークロード、データサイエンス、機械学習を処理するように設計されています。ここで、アナリストやデータサイエンティストはデータモデルを構築し、データを情報に変換します。ただし、他にもさまざまなターゲットシステムがあります。運用システム(ダッシュボードなど)、SaaSアプリケーション、データビジュアライゼーションツールなどです。
Estuaryの主な2つのタイプは、バッチEstuaryとリアルタイムEstuaryです。バッチEstuaryは、大量のデータ(バッチと呼ばれる)を定期的にスケジュールされた間隔で移動します。データはリアルタイムでは移動されません。リアルタイムEstuaryは、データをほぼ瞬時に処理します。リアルタイム分析またはストリーム分析とは、継続的なデータストリームから数秒以内に情報を収集し、形成することです。
Estuaryは、アプリケーション、データ分析、データの集中化など、多くのユースケースで使用されています。あなたの会社が製品やサービスを販売しているか、財務を管理しているか、ロジスティクスを処理しているか、知識を処理しているかに関わらず、データに依存しています。そのデータを正しく使用するには、データの統合が必要です。そして、データ統合はEstuaryによって提供されます。