1

Microsoft Azureデータウェアハウスの上にリアルタイムのレポートサービスを構築しようとしています。現在、私は約5 TBのデータを持つSQLサーバーを持っています。私はデータウェアハウスにデータをストリーミングし、Azure DWの計算能力を使用してデータに基づいてリアルタイムのレポートを生成したいと考えています。それを行うための準備ができていますか?リアルタイムSQL ServerからAzure Datawarehouseにデータを転送

私が検討していたアプローチの1つは、カフカにデータをロードし、それをスパークストリーミングによってAzure DWにストリームすることでした。しかし、このアプローチはリアルタイムよりもリアルタイムに近い。 SQL Server Change Data Captureを利用してデータをデータウェアハウスにストリームする方法はありますか?

+0

どのように「リアルタイム」を定義していますか?実際のレイテンシ要件は何ですか? –

+0

エンティティがマスタdbに追加/変更されるとすぐにレポートデータストレージに格納したい – taffarel

答えて

2

Azure SQLデータウェアハウスは、リアルタイムアーキテクチャでは個人的には表示されません。これは、複数のノードにわたって数十億行を細断するために最適化されたバッチMPPシステムです。このようなパターンは、私の謙虚な意見では、第2秒やリアルタイムのパフォーマンスと同義ではありません。リアルタイムアーキテクチャはAzureのイベントハブ>ストリームアナリティクスのように見える傾向があります。利用可能な並行性が低い(現在は最大32人の同時ユーザー)も、レポート作成には適していません。

代わりに、Azure SQLデータベースのメモリ内テーブルを使用して高速ロードを検討し、都合の良い時点でウェアハウスに渡すこともできます。

Azure SQLデータウェアハウスは、バッチストリームをサポートする、バッチとリアルタイム要素を持ついわゆるラムダアーキテクチャです。さらに読書のためにここを参照してください:

https://social.technet.microsoft.com/wiki/contents/articles/33626.lambda-architecture-implementation-using-microsoft-azure.aspx

+0

SQLデータベースを使用したデータウェアハウスをメモリテーブルに使用するというのは面白いようです。私はDatawarehouseとメモリテーブルを使ってラムダアーキテクチャを実装します。 – taffarel

1

あなたは私たちが最近オープンソースに基づいていますStrideと呼ばれるHTTP API製品をリリースし、電力のリアルタイムのレポートアプリケーションにSQLベースのSaaSソリューションを探しているならストリーミングSQLデータベースPipelineDBは、このタイプのワークロードを処理できます。

ストライドAPIを使用すると、ストリーミングデータに対して連続したSQLクエリを実行し、新しいデータが到着したときに段階的に更新されるテーブルに連続クエリの結果を格納できます。これは、上記で説明したタイプのリアルタイム解析レイヤを追加する簡単なアプローチかもしれません。

詳細はStride technical docsをご覧ください。

関連する問題