をスタンドアロンのジャーを追加は、私はpysparkプログラムを起動していpyspark
from pyspark import SparkContext, SparkConf
SparkConf().setAppName("Example").setMaster("local[2]")
sc = SparkContext(conf=conf)
はどのようなDatabricksのcsvジャーなどのjar依存関係を追加するには?コマンドラインを使用して、私はこのようなパッケージを追加することができます。
$ pyspark/spark-submit --packages com.databricks:spark-csv_2.10:1.3.0
しかし、私はこれらのいずれかを使用していませんよ。このプログラムは、spark-submitを使用していないラガーワークフローの一部です。私の./foo.pyプログラムを実行できるはずです。
- extraClassPathのスパークプロパティは設定できますが、各ノードにJARファイルをコピーする必要がありますか?
- しようとしましたconf.set( "spark.jars"、 "jar1、jar2")
。私はまだクラスが見つかりませんエラーを取得します。実際、私が設定した環境変数のどれもがSparkによって選ばれることはありません。 'os.environ'は、pythonカーネルが動作しているプロセスに対してのみ環境を設定していますが、サブプロセスはそれらの環境変数を選択しないようです。言い換えれば、 'export ... 'と同等の処理をしていません。何かご意見は? – santon
'subprocess.Popen'は現在の環境のコピーを渡すことができる' env'引数をとります。 – zero323