2017-08-03 19 views
0

2つのデータセンターを持つcassandraクラスタを維持しています。今は、既存のクラスタに新しいデータセンターを追加します。データを再構築したら、新しいデータセンターでデータの整合性をどのように確認できますか?cassandraのデータセンター間のデータ一貫性の確認

+0

それはどういう意味ですか?データが正しく複製されているかのように? – raam86

+0

古いDCのデータが新しいDCで完全に複製されるようにするにはどうすればよいですか? –

答えて

1

各DCからLOCAL_QUORUMで読み取り、比較すると最も単純です。

修復では、圧縮タスクのパーティションのハッシュを構築し、データの読み取りよりも効率的な範囲を比較します。あなたは同じことをするためのツールを作るためにコードからその部分を抜き出すことができます...(もし完全ではない完全な)修復を実行できるのであれば。発見された相違について記録する。

+0

どちらの提案も面白いですね、最初のものはデータセットのサイズに依存し、2番目のものは楽しいプロジェクトのように聞こえます – raam86

+0

完全修復を実行するとIO集中的な作業になります。その他の提案はありますか?私はこれをするために火花の仕事をすることができると聞きました。その上の任意のアイデア? –

+0

スパークジョブはすべてのデータも読み込みます。違いは、すべてのデータを読み込んだ後、修復ジョブは比較対象のデータのマーズツリー(ハッシュ)のみを送信し、スパークはすべてのデータを比較して比較することです。しかし、具体的なことを知りたければ、sparkの仕事やlocal_quorumで読むスクリプトで詳細を知ることができます。 –

関連する問題