私はDjangoのPySparkを使用していて、SparkSessionを使ってSpark Masterノードに接続してクラスタ上でジョブを実行しています。PythonからSparkを使用するために必要なライブラリ(PySpark)
私の質問は私のローカルマシンにスパークの完全なインストールが必要ですか?すべてのドキュメントで私はsparkをインストールしてからPythonのパスにPySparkライブラリを追加します。私は、既存のクラスタに接続するために〜500MBのすべてが必要だとは思わない。私はドッカーのコンテナを明るくしようとしています。
ありがとうございました。