0

私はスパークするのが初めてです。なぜ、バッチがすべての使用例で効率的でない場合、Cassandraにバッチで書き込むのはなぜですか(例:savetocassandra操作)。実際にキャサンドラサイドやスパークサイドから気を取り除いてください。スパークカサンドラの特性を最適化した上で、キャサンドラから読んで、キャサンドラに返信するスパークの仕事をしているとき。スパークが内部的にCassandraへの一括書き込みを使用する理由

バッチ処理された書き込みまたは未書き込みのバッチ書き込みですか?

+0

spark-cassandraコネクタは、未記録のバッチを使用します。 – phact

+0

ジョブの実行を促すような種類の操作の非同期クエリよりも、未ログ記録のバッチがパフォーマンスが優れていることが分かります。 – phact

+0

助けてくれてありがとう。 –

答えて

1

これはカサンドラにスパークするのは非常に具体的ではありませんが、

  1. スパークにサービスを提供する任意のプロセスの書き込みは、常に1つのAPI呼び出しのようプットをスピードアップAPI経由ではなく、ファイル
  2. バッチとしてカサンドラに書き込み複数の行をバッチして配置します。
  3. バッチ処理では、正確に1つのセマンティクスの処理が困難になります。
  4. あなたはいつでも一度に1つを実行する独自のSparkタスクを書くことができます。
  5. は、私は、バッチ対シングルは設定されるべきだと思う
0
ここ

ある偉大な説明: 最大オーバードライブ:スパークカサンドラコネクタ(ラッセル・スピッツァー、DataStax)をチューニング| C * Summit 2016 https://www.youtube.com/watch?v=cKIHRD6kUOc

関連する問題