1
私は、Bloomdとその拡張可能なブルームフィルタを使用して、幅広いクローラに対して数十億のURLを保存/チェックしています。最初の1〜15億回のURLで非常にうまくいっていて、約16GBのメモリを使用していましたが、すぐに20億以上のURLが追加されるようです。Bloomdがいつフィルタリングを試みるかを理解したいと思います32 GBまで(サーバーメモリを64 GB以上にアップグレードします)。Bloomdがいつブルームフィルタのスケールを決定するのですか?
"info"コマンドはいくつかのデータを提供しますが、どのキーが何をどのように表しているのかわからないので、拡大する前にいくつのURLを追加することができますか?ここで
は私の「情報」コマンドの結果は、誰かが大規模なURLセットのようなもののためのスケーラブルなブルームフィルタを使用するよりもより良い方法を知っていればまた、私は感謝します
START
capacity 5461000000
checks 5893888032
check_hits 5400239954
check_misses 493648078
in_memory 1
page_ins 7
page_outs 6
probability 0.000100
sets 493648075
set_hits 493648016
set_misses 59
size 1859303638
storage 17205844037
END
です。