2017-07-20 3 views
1

私はDjangoのPySparkを使用していて、SparkSessionを使ってSpark Masterノードに接続してクラスタ上でジョブを実行しています。PythonからSparkを使用するために必要なライブラリ(PySpark)

私の質問は私のローカルマシンにスパークの完全なインストールが必要ですか?すべてのドキュメントで私はsparkをインストールしてからPythonのパスにPySparkライブラリを追加します。私は、既存のクラスタに接続するために〜500MBのすべてが必要だとは思わない。私はドッカーのコンテナを明るくしようとしています。

ありがとうございました。

答えて

1

Spark 2.1のように、私はそれをテストしていませんが、あなたのような場合には、PySparkはPyPiから(pip経由でインストールできます)利用できます。 docsから:

SparkのPythonパッケージは、他のすべてのユースケースを置き換えるものではありません。このPythonパッケージ版のSparkは、既存のクラスタ(Sparkスタンドアロン、YARN、またはMesos)と対話するのに適していますが、独自のスタンドアロンSparkクラスタをセットアップするのに必要なツールは含まれていません。 Sparkの完全版は、Apache Sparkのダウンロードページからダウンロードできます。

:あなたはスパークスタンドアロンクラスタでこれを使用している場合は、 (マイナーバージョンを含む)のバージョンが一致していることを確認する必要がありますかあなたはあり 経験奇妙なエラー

関連する問題