スパークが内部的にCassandraへの一括書き込みを使用する理由

私はスパークするのが初めてです。なぜ、バッチがすべての使用例で効率的でない場合、Cassandraにバッチで書き込むのはなぜですか（例：savetocassandra操作）。実際にキャサンドラサイドやスパークサイドから気を取り除いてください。スパークカサンドラの特性を最適化した上で、キャサンドラから読んで、キャサンドラに返信するスパークの仕事をしているとき。スパークが内部的にCassandraへの一括書き込みを使用する理由

バッチ処理された書き込みまたは未書き込みのバッチ書き込みですか？

出典

2017-10-30 Anonymous

spark-cassandraコネクタは、未記録のバッチを使用します。 – phact

ジョブの実行を促すような種類の操作の非同期クエリよりも、未ログ記録のバッチがパフォーマンスが優れていることが分かります。 – phact

助けてくれてありがとう。 –

これはカサンドラにスパークするのは非常に具体的ではありませんが、

スパークにサービスを提供する任意のプロセスの書き込みは、常に1つのAPI呼び出しのようプットをスピードアップAPI経由ではなく、ファイル
バッチとしてカサンドラに書き込み複数の行をバッチして配置します。
バッチ処理では、正確に1つのセマンティクスの処理が困難になります。
あなたはいつでも一度に1つを実行する独自のSparkタスクを書くことができます。
は、私は、バッチ対シングルは設定されるべきだと思う

出典

2017-10-30 21:05:43 KrazyGautam

ここ

ある偉大な説明：最大オーバードライブ：スパークカサンドラコネクタ（ラッセル・スピッツァー、DataStax）をチューニング| C * Summit 2016 https://www.youtube.com/watch?v=cKIHRD6kUOc

出典

2018-01-23 12:15:52

スパークが内部的にCassandraへの一括書き込みを使用する理由

答えて

関連する問題