複数のgoogle-dataflowおよびdataprocジョブ

データ収集とETLの目的で複数のGoogle-dataflowジョブがあります。、次にgoogle dataprocジョブ（Spark）を使用して機械学習を行います。複数のgoogle-dataflowおよびdataprocジョブ

これらのジョブをワークフローのようにまとめると、ワークフロー全体をスケジュールできるようになります。

あなたは私を助けることができるいくつかの提案/製品がありますか？

2016-05-26 gana

私は今、GCP上のすべての偉大な答えを知りませんが、ここではオプションのカップルです：

後DataProcジョブを起動するために、次のパターンを使用し
Google App Engineのタスクキューを使用データフロージョブが完了します。Createを使用して、単一の要素でダミーのPCollectionを作成します。 DoFn本体にDataProcジョブを呼び出すJavaコードが含まれている、そのコレクション上にParDoを記述します。 1つの要素を含むコレクションを処理しているので、1回実行されます（モジュロ再試行）。データフロージョブの最終出力を取り出し、何も出力しないParDoで処理し、空のPCollectionを与えます。そのPCollectionを、DataProcを呼び出すParDoのサイド入力として渡します。つまり、偽のデータ依存関係を使用して、Dataflowジョブの本体とDataProcジョブを作成する最終ステップとの間の順序を強制します。

2016-05-31 17:52:17 Frances

我々は、このための2つのアプローチ...

dataprocジョブを起動するためのカスタムソリューションを実装しています。これには、Dataprocを呼び出すSpringスケジューラが含まれます。& google Sdk APIを使用したデータフロー
このストリーミングモードのdataprocジョブは、他のdataprocおよびdataflowジョブを管理します。私たちはpub-subにメッセージを送り、ストリーミングモードでメッセージを受信し、さらにチェーンを起動します。

我々はなど

第二ソリューションを雲の形成を使用してSpringアプリケーションを管理しているので、私は第一を超える第二ソリューションを好むだろうが* 7 24用dataprocジョブを実行しているの余分なコストが付属しています。

2016-12-07 13:33:28 gana

答えて