2017-03-22 5 views
1

初めての場合スパークです。 jupyterノートブックインタラクティブUIがHDInsightクラスタにインストールされていますが、私はpysparkスクリプトを開発しました。 Aのコードを実行しましたが、今はというスクリプトを自動化する必要があります。 Azure Datafactoryを使用しようとしましたが、そこからpysparkスクリプトを実行する方法が見つかりませんでした。また、oozieを使用しようとしましたが、それを使用する方法を理解できませんでした。ノートブックを保存して再試行し、すべてのセルを実行しましたが、手作業のようです。sparkクラスタのために、Microsoft Azureのjupiterノートブックでpysparkジョブをスケジュールする方法はありますか?

Microsoft Azureでpysparkジョブをスケジュールするのを手伝ってください。

答えて

2

私は、crontabのようなスケジュールされたジョブを実行するベストプラクティスについて、Apache Spark for pysparkを検索しました。

oozieせずに、私は地元にjupyterノートブックを保存し、スケジューラとしてLinuxのcrontabにリウィウスを経由してHDInsightスパークにPythonスクリプトを提出するシェルスクリプトを書くことですシンプルなアイデアを持っている場合。参考までに、以下のように参照することができます。

  1. IPython Notebook save location
  2. How can I configure pyspark on livy to use anaconda python instead of the default one
  3. Submit Spark jobs remotely to an Apache Spark cluster on HDInsight using Livy

それがお役に立てば幸いです。

関連する問題