データ収集とETLの目的で複数のGoogle-dataflowジョブがあります。 、次にgoogle dataprocジョブ(Spark)を使用して機械学習を行います。複数のgoogle-dataflowおよびdataprocジョブ
これらのジョブをワークフローのようにまとめると、ワークフロー全体をスケジュールできるようになります。
あなたは私を助けることができるいくつかの提案/製品がありますか?
データ収集とETLの目的で複数のGoogle-dataflowジョブがあります。 、次にgoogle dataprocジョブ(Spark)を使用して機械学習を行います。複数のgoogle-dataflowおよびdataprocジョブ
これらのジョブをワークフローのようにまとめると、ワークフロー全体をスケジュールできるようになります。
あなたは私を助けることができるいくつかの提案/製品がありますか?
私は今、GCP上のすべての偉大な答えを知りませんが、ここではオプションのカップルです:
我々は、このための2つのアプローチ...
dataprocジョブを起動するためのカスタムソリューションを実装しています。これには、Dataprocを呼び出すSpringスケジューラが含まれます。& google Sdk APIを使用したデータフロー
このストリーミングモードのdataprocジョブは、他のdataprocおよびdataflowジョブを管理します。私たちはpub-subにメッセージを送り、ストリーミングモードでメッセージを受信し、さらにチェーンを起動します。
我々はなど
第二ソリューションを雲の形成を使用してSpringアプリケーションを管理しているので、私は第一を超える第二ソリューションを好むだろうが* 7 24用dataprocジョブを実行しているの余分なコストが付属しています。