大量のストリームを重複排除するためにhbaseを使用しています。私はそれが行キーとして使用するストリーム内の各メッセージから一意の識別子を使用してうまくいくと思った。しかし、エンドユーザーは、私が作成した出力ストリームから重複したデータを見ています。唯一の考えられる原因は、重複したメッセージが同時に消費されることです。大量のデータを含むhbaseに対して除外する
私は約50のスレッドが別のプロセスでストリームからいっぱいになっている同じキューを消費しています。これが起こらないようにする方法や適切な重複排除を達成するより良い方法はありますか?このプロセスでは、新しいレコードを挿入する前にGETを実行します。