2017-09-07 8 views
2

jupyterノートブックを起動するための初期化スクリプトを使用してGoogle DataProcクラスタを開始する手順に従っています。私はJupyterノートブック(特にpyspark)が得られSparkContextに(例えばスパーク-XML、)余分なJARファイルを含めることができますどのようにJupyterノートブックで使用するGoogle DataProcクラスターを開始するときに、追加のjarを追加するにはどうすればよいですか?

https://cloud.google.com/blog/big-data/2017/02/google-cloud-platform-for-data-scientists-using-jupyter-notebooks-with-apache-spark-on-google-cloud

答えて

4

答えは、ロードしようとしているジャーによって多少異なります。我々として何か他のもの(に「」

$ gcloud dataproc clusters create [cluster-name] \ 
    --zone [zone] \ 
    --initialization-actions \ 
     gs://dataproc-initialization-actions/jupyter/jupyter.sh \ 
    --properties spark:spark.jars.packages=com.databricks:spark-xml_2.11:0.4.1 

を複数のMavenの座標を指定するには、からのgcloud辞書の区切り文字を交換する必要があります。たとえば、クラスタを作成する場合は、次のと火花-XMLを使用することができます)インストールするパッケージを分離するためにそれを使用する必要があります。変更されている文字をエスケープする方法について

$ gcloud dataproc clusters create [cluster-name] \ 
    --zone [zone] \ 
    --initialization-actions \ 
     gs://dataproc-initialization-actions/jupyter/jupyter.sh \ 
    --properties=^#^spark:spark.jars.packages=artifact1,artifact2,artifact3 

詳細のgcloudで見つけることができます:

$ gcloud help topic escaping 
関連する問題