2017-03-05 14 views
-1

私はCassandraのテーブルで簡単な計算をするためにsparkを使用しようとしていますが、かなり失われています。Cassandra pythonの設定でスパークする

私は従うことをしようとしています:

./bin/pyspark \ 
    --packages com.datastax.spark:spark-cassandra-connector_2.11:2.0.0-M3 

でしかし、私は、ここから物事を設定する方法を確認していない:https://github.com/datastax/spark-cassandra-connector/blob/master/doc/15_python.md

は、だから私はPySparkシェルを実行していますよ。私のカサンドラクラスターの場所をスパークに知らせるにはどうすればいいですか?私はCassandraSQLContextがこれに使用できることを見てきましたが、私はこれも非難されていると読んでいます。 How to connect spark with cassandra using spark-cassandra-connector?

をしかし、私は

import com.datastax.spark.connector._ 

を使用する場合Pythonはそれがモジュールを見つけることができないことを言う:

私はこれを読んだことがあります。 誰かが正しく設定する方法について正しい方向に私を指摘することはできますか?

答えて

0

CassandraコネクタはPythonモジュールを提供していません。すべての機能はData Source APIで提供されており、必要なjarファイルが存在する限り、すべての機能がそのまま使用できます。

スパークに私のカサンドラクラスターがどこにあるかを知らせるにはどうすればよいですか?

spark.cassandra.connection.hostプロパティを使用します。あなたはexampelため​​/pysparkの引数として渡すことができます。

pyspark ... --conf spark.cassandra.connection.host=x.y.z.v 

またはご使用の構成に設定します。テーブル名または鍵空間のような

(SparkSession.builder 
    .config("cassandra.connection.host", "x.y.z.v")) 

設定が読者に直接設定することができます。

(spark.read 
    .format("org.apache.spark.sql.cassandra") 
    .options(table="kv", keyspace="test", cluster="cluster") 
    .load()) 

したがって、Dataframesのドキュメントに従うことができます。サイドノートとして

import com.datastax.spark.connector._ 

は、Scalaの構文であり、唯一の偶然Pythonで受け入れられています。

関連する問題