現在、Python Apache Beamパイプラインが動作しており、ローカルで実行することができます。現在、パイプラインをGoogle Cloud Dataflow上で実行し、完全に自動化していますが、Dataflow/Apache Beamのパイプライン監視には制限があります。Python Apache BeamパイプラインステータスAPIコール
現在のところ、Cloud Dataflowには、UIインターフェイスまたはコマンドラインのgcloudを通じて、パイプラインステータスを監視する2つの方法があります。これらのソリューションは両方とも、無損失のファイル処理を考慮に入れることができる完全自動化ソリューションには適していません。
Apache Beamのgithubには、internal/apiclient.pyというファイルがあり、ジョブの状態を取得するための関数があることを示しています。get_job。
get_jobが使用されたことがわかった1つのインスタンスはrunners/dataflow_runner.pyです。
最終的な目標は、このAPIを使用して、自動的に実行されるジョブの状態を取得して、最終的にすべてがパイプラインを通じて正常に処理されるようにすることです。
パイプライン(p.run()
)を実行した後、このAPIをどのように使用することができますか?私たちはにrunner
がどこから来るのか理解していません。
誰かがこのAPIコールにアクセスする方法を理解してくれれば、パイプラインをセットアップ/実行することができます。