2017-10-14 14 views
0

MongoDBコレクションを読み書きするには、pysparkで作業する必要があります。すべてがうまくいきます。私はしかし、問題は、それがコマンドラインであり、それは、コマンドラインでの巨大なコードを書くのは難しいになることであるMongoDBの接続pycharmを使ってpysparkとmongoDBを操作する方法IDE

./pyspark --packages org.mongodb.spark:mongo-spark-connector_2.11:2.2.0 

でpysparkを開始するには、以下のパッケージを使用します。誰でも同じ機能を持つpycharmで作業する方法、またはpycharmで--packagesオプションを指定してpysparkインスタンスを起動する方法を知っていますか?

答えて

1

pysparkで動作するPyCharmの設定方法については、広範なSOスレッドがあります。hereを参照してください。

スレッドに含まれていないものは、興味のあるMongoDBコネクタのような外部パッケージを追加する方法です。 (私はこれが動作することを確認していない

spark.jars.packages org.mongodb.spark:mongo-spark-connector_2.11:2.2.0 

お知らせ(私がいない疑いがある)あなたがpipでpysparkをインストールすることを選択した場合は、最後に:あなたは$SPARK_HOME/confにあるあなたのspark-defaults.confファイルに次のエントリを追加することによってこれを行うことができますSpark> = 2.2の場合、上記のスレッドの回答に記載されているオプション)。個人的に、私は、SparkのためのPythonパッケージが 他の使用例すべてに代わるものではありません

docsで述べたように、以来 pipでpysparkをインストールすることはお勧めしません。このPythonパッケージ版のSparkは、 既存のクラスタ(Spark standalone、YARN、または Mesos)との対話に適していますが、独自の スタンドアロンSparkクラスタのセットアップに必要なツールは含まれていません。

+1

pycharmの 'spark-defaults.conf'に' spark.jars.packages org.mongodb.spark:mongo-spark-connector_2.11:2.2.0'を追加しました。どうもありがとうございました。 –

関連する問題