2016-06-13 8 views
0

うまくいきたいと思います。Microsoft AzureでPysparkスクリプトを自動化する方法

私はSparkとMicrosoft Azureの新人です。私たちのプロジェクト要件に従って、私たちはHDInsightクラスタにインストールされたjupyterノートブックを使ってpysparkスクリプトを開発しました。日付まで、私たちはjupyterからコードを実行しましたが、スクリプトを自動化する必要があります。 Azure Datafactoryを使用しようとしましたが、そこからpysparkスクリプトを実行する方法が見つかりませんでした。また、oozieを使用しようとしましたが、それを使用する方法を理解できませんでした。

私はあなたが青空のpysparkスクリプトを自動化/スケジュールする方法を教えてください。

ありがとう、 Shamik。

答えて

0

アズールデータファクトリーは今日、ファーストクラスのスパークをサポートしていません。私たちは将来、その統合を追加しようと努めています。その時点までに、ADFマップ・リダクション・アクティビティを使用してスパーク送信を呼び出すjarを送信するサンプルをGithubで公開しました。

ここを見てください: https://github.com/Azure/Azure-DataFactory/tree/master/Samples/Spark

+0

はのGaurav、私はこのアプローチをしようとします、ありがとうございました。 Azure HdInsightでpyspark prohramをスケジュールする方法はありますか? – Shamik

+0

私は、リンクで言及された例を試してみましたが、 'スタイル'が見つかりました: 'StartOfInterval'は出力とパイプラインの可用性設定に不一致があるという例外を作成します。パイプラインjsonからその属性を削除すると、正常に展開されました。今私はそれが実行されているかどうかをチェックします。 – Shamik

+0

上記のリンクは現在ご利用いただけません。 – Arron

関連する問題