あなたは私のnoobnessを許す必要がありますが、私はpythonスクリプトを実行しているcassandraに接続するスパーククラスターをセットアップしようとしています。現在、私はsolastr検索モードでcassandraを実行するためにdatastax enterpriseを使用しています。私は、datastaxが提供するspark-cassandraコネクタを使用するには、analyticsモードで-andkオプションを使用してcassandraを実行する必要があることを理解しています。現在、私はそれが私が次のステップに従っ動作させるために、そのために、DSEのスパークバージョンを使用して動作するようにそれを持っている:spark-cassandra-connectorを使用してsparkとcassandraを接続するにはどうすればいいですか?
- 分析モードでスタートDSEのカサンドラ
- 変更の$ PYTHONPATHのENV変数に/パス/to/spark/dse/python:/path/to/spark/dse/python/lib/py4j-*.zip:$PYTHONPATH
- rootとして実行スタンドアロンスクリプトのほかに
python test-script.py
と、私はドライバクラスを作成するjavaパッケージをインクルードしようとすると、sparkだけを使用して別のテストを行いました(dseバージョンではありません)。づけし、私がやった:
- ファイル火花-defaults.confに 2.execute
$SPARK_HOME/bin/spark-submit —packages com.datastax.spark:spark-cassandra...
SCは、ドライバがロードされたかどうかを確認するための方法cassandraTableを持っていたが、私は、次のエラーメッセージが表示されます両方のケースでは、うまくいかなかった場合、私はまたpysparkシェルとテストを実行してみました:
AttributeError: 'SparkContext' object has no attribute 'cassandraTable'
を私の目標はあります私は何をすべきか? non-dseスパークバージョンをcassandraと接続し、ドライバからのメソッドを利用できるようにする
また、dseで実行されていないcassandraノードでdse spark-cassandraコネクタを使用できるかどうかを知りたい場合もあります。ここにあなたの助け