Google DataflowにバッチETLプロセスを書き直す方法を理解しようとする初心者です。私はいくつかのドキュメントを読んで、いくつかの例を実行します。Googleのデータフローとの複雑な結合
私は、新しいETLプロセスがビジネスイベント(つまり、ソースPCollection)によって駆動されることを提案しています。これらは、特定のビジネスエンティティのETLプロセスを起動します。 ETLプロセスは、ソースシステムからデータセットを抽出し、その結果(PCコレクション)を次の処理ステージに渡します。処理段階は、様々なタイプの結合(デカルトなどのデカルトおよび非キー結合を含む)を含む。
だからここに質問のカップル:
(1)私は&有効で効率的な提案だなアプローチはありますか?もっとうまくいかない場合は、Google Dataflowを使用した現実の複雑なETLプロセスのプレゼンテーションを見て、簡単なシナリオだけを見ていない。
ETL製品の中には、「より高いレベル」のものがありますか?私はSparkとFlinkをしばらく見守ってきました。
現在のETLは中程度に複雑ですが、約30のコアテーブル(従来のEDWディメンションとファクト)と約1000の変換ステップしかありません。ソース・データは複雑です(約150のOracle表)。
(2)複雑な非キー結合は、どのように処理されますか?
私は明らかにAPIであるため、Google Dataflowに魅了されています。並列処理機能は非常に適しています(バッチ処理から増分処理に移行するよう求められています)。
このユースケースのデータフローの優れた実例は、実際に採用を推進します。それは、データフローのように聞こえる
おかげで、 マイク・S