私は巨大なデータをcassandraに保存しています。私はpythonを使ってsparkを使ってそれを処理したかったのです。 私はPythonを使ってsparkとcassandraを相互接続する方法を知りたがっています。 私はsc.cassandraTableを使用している人を見ましたが、それは動作していないので、一度にすべてのデータをcassandraから取得してから、スパークさせることは理に適っていません。 提案がありますか?SparkとCassandraからPython
3
A
答えて
3
ドキュメントで例を試したことがありますか?
Spark Cassandra Connector Python Documentation
spark.read\
.format("org.apache.spark.sql.cassandra")\
.options(table="kv", keyspace="test")\
.load().show()
0
私はちょうど私の "短い" 2セントを与えるでしょう。公式の文書はあなたが始めるのにまったく問題ありません。なぜこれが機能しないのかを指定したいかもしれません。つまり、メモリが足りなくなってしまったのでしょうか(単に「ドライバ」メモリを増やす必要があるかもしれません)。また、あなたがその例を提供してくれればうれしいでしょう。
ここに私が持っていた意見や経験があります。通常は必ずしもそうではありませんが、ほとんどの場合、パーティションに複数の列があります。テーブル内のすべてのデータをロードする必要はありませんが、ほとんどの場合、単一のパーティション内で処理を維持できます。データはパーティション内でソートされるため、通常はかなり高速になります。大きな問題を提示しなかった。
casssandraの店舗全体があなたの処理を行うためにサイクルをスパークさせたくない場合は、そこに多くのソリューションがあります。基本的にはクオラの素材になります。 - より良いアッカクラスタのhazelcastなどの間インスタンス通信フレームワークのいくつかの並べ替えを必要とするかもしれない、これは本当に広いトピックです
- すぐにアプリケーションの処理を実行します。ここでは、より一般的なものをいくつか紹介しますストリーミング - ちょうどいくつかの永続化層に読み取るためのマイクロバッチ処理とフラッシュ結果にすぐに処理を行う - カサンドラ
- ApacheのFLINKかもしれない - にカサンドラ
- ストアデータ、すなわちするために、適切なストリーミングソリューションとプロセスの定期フラッシュ状態を使用しますそれは読まれるはずの方法である - このアプローチは、 (あなたが提供した情報で言い表すのは難しい)
- リストは続けてもよい...あなたの仕事がもっと単純なものであれば、ユーザーはキャサンドラの集計機能を定義した。
ユースケースについての詳細を記入することをお勧めします。多かれ少なかれ私がここで言ったことはかなり一般的であいまいですが、それから再びこのすべてをコメントに入れても意味がありません。
関連する問題
- 1. spark-cassandraのspark-cassandraコネクタとの統合
- 2. scala spark cassandraインストール
- 3. Spark + Cassandra Integration
- 4. Spark Cassandra Streaming
- 5. Spark-Scala with Cassandra
- 6. spark cassandra update/upsert
- 7. Cassandra Spark Connector
- 8. Apache Cassandra and Spark
- 9. Java Spark Streaming with Cassandra
- 10. Cassandra Spark Connector JavaDemoコンパイルエラー
- 11. Spark + Cassandra on EMR LinkageError
- 12. spark-cassandra-connectorでsparkでcassandraのブロブタイプを読み取る
- 13. CassandraとSpark(pyspark)との接続/統合
- 14. SparkスカラCassandra CSVをcassandraに挿入
- 15. Scala SparkとCassandraに接続するコード
- 16. spark-cassandra-connectorを使用してsparkとcassandraを接続するにはどうすればいいですか?
- 17. spark-cassandra-connector per partition limit
- 18. Kafka Spark Scala Cassandra対応バージョン
- 19. Spark Cassandra Connector IN文where句
- 20. Spark Cassandra NoClassDefFoundError guava/cache/CacheLoader
- 21. leftJoinWithCassandraTable spark-cassandra-connectorを使用
- 22. Spark Cassandra書き込みパフォーマンス
- 23. CassandraからSparkへのストリーミングを有効にするには?
- 24. SparkからCassandraにデータを保存すると、java.lang.ClassCastExceptionが発生します。
- 25. JanusGraphのSparkクラスタとCassandraの設定と設定
- 26. ローカルのspark-cassandraコネクタがSparkクラスタを表示します
- 27. Spark PythonからPandasへのタイムスタンプ往復
- 28. spark pythonプロダクトトップ5ファイルからの番号
- 29. PythonのSpark DataFrameからlabeledPointsを作成
- 30. NoClassDefFoundError:spark-cassandra-connectorのorg/apache/spark/sql/DataFrame
すべてのデータを読み込むのは何ですか?あなたは何を持っていますか? –