Jupyterノートブックで使用するGoogle DataProcクラスターを開始するときに、追加のjarを追加するにはどうすればよいですか？

jupyterノートブックを起動するための初期化スクリプトを使用してGoogle DataProcクラスタを開始する手順に従っています。私はJupyterノートブック（特にpyspark）が得られSparkContextに（例えばスパーク-XML、）余分なJARファイルを含めることができますどのようにJupyterノートブックで使用するGoogle DataProcクラスターを開始するときに、追加のjarを追加するにはどうすればよいですか？

https://cloud.google.com/blog/big-data/2017/02/google-cloud-platform-for-data-scientists-using-jupyter-notebooks-with-apache-spark-on-google-cloud

？

出典

2017-09-07 seandavi

答えは、ロードしようとしているジャーによって多少異なります。我々として何か他のもの（に「」

$ gcloud dataproc clusters create [cluster-name] \ 
    --zone [zone] \ 
    --initialization-actions \ 
     gs://dataproc-initialization-actions/jupyter/jupyter.sh \ 
    --properties spark:spark.jars.packages=com.databricks:spark-xml_2.11:0.4.1

を複数のMavenの座標を指定するには、からのgcloud辞書の区切り文字を交換する必要があります。たとえば、クラスタを作成する場合は、次のと火花-XMLを使用することができます）インストールするパッケージを分離するためにそれを使用する必要があります。変更されている文字をエスケープする方法について

$ gcloud dataproc clusters create [cluster-name] \ 
    --zone [zone] \ 
    --initialization-actions \ 
     gs://dataproc-initialization-actions/jupyter/jupyter.sh \ 
    --properties=^#^spark:spark.jars.packages=artifact1,artifact2,artifact3

詳細のgcloudで見つけることができます：

$ gcloud help topic escaping

出典

2017-09-07 22:38:00

Jupyterノートブックで使用するGoogle DataProcクラスターを開始するときに、追加のjarを追加するにはどうすればよいですか？

答えて

関連する問題