2016-11-22 12 views
1

google-cloud-datalabノートブックでどのようにpysparkをインポートしますか? ノード上のPYTHONPATH、SPARK_HOMEを設定しても、動作しません。私は何か不足していますか?Google Cloud Datalabのpyspark

ImportErrorTraceback (most recent call last) 
    <ipython-input-4-c15ae3402d12> in <module>() 
    ----> 1 import pyspark 

ImportError: No module named pyspark 

答えて

0

Datalabは現在(py)Sparkをまだサポートしていません(roadmapもチェックしてください)。 Google Cloud Platformでは、現時点で最も簡単なオプションは、JupyterノートブックでDataProcクラスタをデプロイすることです。ドキュメントhereを参照してください。

DataprocチームもStackOverflow上にあるので、ロードマップについての詳しい情報を提供できることに注意してください。

1

Fematich氏によると、まだ残念ながらサポートされていません。しかし、Datalab is open sourceのように気に入ったら、Dockerfileを修正してpysparkを追加して独自のイメージを作成することができます。他の人が興味を持っているかもしれないと思うなら、プルリクエストを送ることもできます。

0

あなたは初期化作用を介してクラウドDataprocに便利Datalabを実行できます。これは、あなたがpySpark環境と対話することができます

https://github.com/GoogleCloudPlatform/dataproc-initialization-actions/tree/master/datalab

また、Dataproc Dockerイメージを編集して、spark(pyspark付き)を含めることもできます。これにより、どこでも(ローカルまたはVM)スパークしてDatalabを実行することができます。

関連する問題