spark-cassandraコネクタを使用してCassandraに接続する2つのスパークジョブがあります。 https://github.com/datastax/spark-cassandra-connectorcassandraの2つの異なるセッションから同じキースペースから読み書きします
最初のジョブでは、カフカを使用してSparkでデータをストリームし、リアルタイムで処理します。各メッセージを処理した後、メッセージはCassandraに保存されます。
第2ジョブは、cassandraからデータを読み取るために10秒ごとに配置されるバッチジョブです。
したがって、1つのストリーミングスパークジョブがデータをCassandraキースペースに書き込んでおり、他のバッチジョブが何度も展開されてSAMEキースペースからデータを読み取ることが繰り返し行われています。私の質問は:
2つのスパークジョブから2つのセッションを開いて、同じキースペースを読み書きできますか?
注:両方のスパークジョブから同じユーザー名/パスワードを使用してcassandraに接続しています。
バッチジョブを累積するか、最後の10秒だけにしますか? – RussS
私はそれを委託的にしたい。 –