2016-05-26 21 views
2

データ収集とETLの目的で複数のGoogle-dataflowジョブがあります。 、次にgoogle dataprocジョブ(Spark)を使用して機械学習を行います。複数のgoogle-dataflowおよびdataprocジョブ

これらのジョブをワークフローのようにまとめると、ワークフロー全体をスケジュールできるようになります。

あなたは私を助けることができるいくつかの提案/製品がありますか?

答えて

1

私は今、GCP上のすべての偉大な答えを知りませんが、ここではオプションのカップルです:

  • 後DataProcジョブを起動するために、次のパターンを使用し
  • Google App Engineのタスクキューを使用データフロージョブが完了します。Createを使用して、単一の要素でダミーのPCollectionを作成します。 DoFn本体にDataProcジョブを呼び出すJavaコードが含まれている、そのコレクション上にParDoを記述します。 1つの要素を含むコレクションを処理しているので、1回実行されます(モジュロ再試行)。データフロージョブの最終出力を取り出し、何も出力しないParDoで処理し、空のPCollectionを与えます。そのPCollectionを、DataProcを呼び出すParDoのサイド入力として渡します。つまり、偽のデータ依存関係を使用して、Dataflowジョブの本体とDataProcジョブを作成する最終ステップとの間の順序を強制します。
0

我々は、このための2つのアプローチ...

  1. dataprocジョブを起動するためのカスタムソリューションを実装しています。これには、Dataprocを呼び出すSpringスケジューラが含まれます。& google Sdk APIを使用したデータフロー

  2. このストリーミングモードのdataprocジョブは、他のdataprocおよびdataflowジョブを管理します。私たちはpub-subにメッセージを送り、ストリーミングモードでメッセージを受信し、さらにチェーンを起動します。

我々はなど

第二ソリューションを雲の形成を使用してSpringアプリケーションを管理しているので、私は第一を超える第二ソリューションを好むだろうが* 7 24用dataprocジョブを実行しているの余分なコストが付属しています。

関連する問題