2016-03-25 5 views
1

をjupyter使用してpysparkすることです - 私は(火花CSVまたはgraphframesのような)pysparkするパッケージを追加して、それらを使用していた場合ノートブック、従うべきベストプラクティスは何ですか? --packagesオプションを使って新しいpysparkジョブにパッケージを追加できますが、その新しいpysparkコンテキストをノートブックにどのように接続すればいいですか?が正常に<a href="https://cloud.google.com/dataproc/tutorials/jupyter-notebook" rel="nofollow">https://cloud.google.com/dataproc/tutorials/jupyter-notebook</a></p> <p>私の質問を使用して、私はpysparkでjupyter実行することができる午前ノートブック

答えて

1

ノートブックを正常に動作させるには、ノートブックのセットアップで正しいパッケージを選択してください。 Jupyterがクラスタの設定されたSparkディレクトリを使用し、必要なYARN/filesystem/lib設定をすべて確実に取得するように、リンクした初期化アクションが働くので、これを行う最良の方法は、クラスタ作成時にジョブ提出時間:--packagesが設定火花シェル/火花提出/ pysparkラッパー内だけ糖衣構文であるため、this StackOverflow errorパー

gcloud dataproc clusters create \ 
    --properties spark:spark.jars.packages=com.databricks:spark-csv_2.11:1.2.0 

は、spark-defaults.confプロパティspark.jars.packagesを設定すると、--packagesオプションを指定するより移植と同等です構成エントリはとにかくspark.jars.packagesです。

関連する問題

 関連する問題