私は、アイテムがセットの一部である確率が非常に低いために最適化されたセットデータ構造を探しています。非常に低い確率で確率的に設定する
ユースケースはGnip/Twitter準拠のFirehoseで、毎秒約1,000件のイベントが発生します(これはTwitter全体からの削除です)。私たちはテーブルを持っています。記憶されたつぶやき(毎年その量だけ増えています)が1,000万と言いましょう。そして、アイテムが消防士に現れたら削除する必要があります。私は10万秒ごとにマッチがあると推測しています。
私はブルームフィルターを考えていましたが、おそらくいくつかはチェーンされていましたが、ヒットする可能性は非常に低いので、常にチェーン全体を通過する必要があります。
これに適したサブラインデータ構造はありますか?
ハッシュテーブルを使ってみましたか? – TilmannZ
ハッシュテーブルのサイズは線形に増加しますが、これは避けようとしています。 – Joe