dataprocクラスタにシェルスクリプトを直接実行する方法はありません。現在、私はpysparkoperator(aonther pythonファイルを呼び出し、このpythonファイルがシェルスクリプトを呼び出す)を介してシェルを実行できます。私は多くのリンクを検索しましたが、今のところ直接的な方法は見つかりませんでした。気流Dataprocオペレータがシェルスクリプトを実行する
誰かが私に最も簡単な方法を教えてくれれば、本当に役に立ちます。 sh
オペレータと
dataprocクラスタにシェルスクリプトを直接実行する方法はありません。現在、私はpysparkoperator(aonther pythonファイルを呼び出し、このpythonファイルがシェルスクリプトを呼び出す)を介してシェルを実行できます。私は多くのリンクを検索しましたが、今のところ直接的な方法は見つかりませんでした。気流Dataprocオペレータがシェルスクリプトを実行する
誰かが私に最も簡単な方法を教えてくれれば、本当に役に立ちます。 sh
オペレータと
PIGジョブ[1]:gcloud dataproc jobs submit pig ... -e 'sh ls'
私が最終的な目標が何であるかが興味津々?なぜシェルスクリプトを実行するのですか?ワンタイムクラスタセットアップを実行することを目的とする場合は、初期化アクション[2]を使用する必要があります。
[1] https://pig.apache.org/docs/r0.9.1/cmds.html#sh
[2] https://cloud.google.com/dataproc/docs/concepts/init-actions
私は 'direct'方法を知りませんが、あなたが気づいていない場合には、あなたは1)を実行しているDataprocマスターノードの名前を見つけることができます2 ) 'gcloud compute ssh'を – Chengzhi
こんにちは、このオプションを使って手動でシェルスクリプトで作業することができますが、私の目的はエアフローを通してこのスクリプトをスケジュールすることです。あなたが私をもっと助けてくれたら教えてください。前もってありがとうございます – Aditi
PythonOperatorを使用すると、実行中のdataprocを取得するために 'googleapiclient.discovery.build( 'dataproc'、 'v1'、credentials = GoogleCredentials.get_application_default())'を使用し、 'gcloudを使用して' subprocess.Popen'正しいインスタンス名を渡してssh'を計算する – Chengzhi