bloom-filter

1熱

1答えて

私は、Bloomdとその拡張可能なブルームフィルタを使用して、幅広いクローラに対して数十億のURLを保存/チェックしています。最初の1〜15億回のURLで非常にうまくいっていて、約16GBのメモリを使用していましたが、すぐに20億以上のURLが追加されるようです。Bloomdがいつフィルタリングを試みるかを理解したいと思います32 GBまで（サーバーメモリを64 GB以上にアップグレードします）。

0熱

1答えて

枯渇したときにブルームフィルタを拡張するには？

私はブルームフィルタアルゴリズムを研究しています。概念はかなり単純ですが、以下はJavaの「ブルームフィルタ構造」の簡単な実装です。私の質問は、ビットセットがほぼ満杯になったときに容量を拡張する方法です。ビットセットのサイズを変更すると、明らかにハッシュ関数を考慮する必要があり、それらの存在要素を再配置する必要があります。もう一つの考えは、ブルームフィルタの別のインスタンスを初期化することです

2熱

1答えて

グアバブルームフィルタの性能が悪いのはなぜですか？

Google Guava's Bloom Filterが私のプロジェクトで動作するかどうかを判断しようとしていますが、私のテストでは、誤検出率が非常に高くなっています（おそらく高レベルのハッシュ衝突のためでしょうか？ 2つのデータファイルを使用して実験を行っています。最初のものは、私がブルームフィルターに入れた2200万の固有の数値（整数）を含んでいます。 2つ目は、Bloom Filterで偽陽

0熱

1答えて

Redisの複数のノードでCuckooフィルターを実装する

私はRedisでcuckooフィルターを実装しようとしています。私が今まで行ってきたことは、クラスタ上で作業していても、ただ一つのノードにすべての値を挿入することを除いて、正常に動作します。これを複数のノードで実装するには、いくつかのハッシュ関数を使用して異なるノードに異なる要素を割り当てることを考えています。 Redisには、キーや番号、または特定のスロットを使用して特定のノードに要素を強制的

1熱

1答えて

固定偽陽性確率を持つ圧縮ブルームフィルタ

このペーパーCompressed Bloom Filters by Michael Mitzenmacherに従って圧縮ブルームフィルタの実装を実装しようとしています。私は計算する必要がありますm - ビット数とk - 一定の固定偽陽性確率のハッシュ関数の数。例えば：私はN = 1000要素（ブルームフィルタに挿入される）と、所与の確率P = 0.01を持っている場合、ビットの「最適な」数は、ブ

0熱

1答えて

cassandraのブルームフィルタを抽出する

私は別のサービスによってクエリされるcassandraサーバを持っており、クエリの量を減らす必要があります。私の最初の考えは、数分おきにデータベース全体のブルームフィルタを作成してサービスに送信することでした。しかし、私は数百ギガバイトのデータベース（数テラバイトに成長すると予想される）を持っているので、データベースを数分おきにオーバーロードするのは良い考えのようには思えません。しばらくして

0熱

1答えて

MapReduceのBloomフィルタ

私は、入力側のフィルタリングのために縮小側結合アルゴリズムでブルームフィルタを使用する必要がありますが、分散キャッシュ（ブルームフィルタ）の入力ストリームをデシリアライズする関数readFieldsに問題があります。ブルームフィルタに入れます。 public class BloomJoin { //function map : input transaction.txt pu

1熱

1答えて

数十億の文字列のカウント頻度

私は、postgresqlデータベースに格納されている30億の文字列を持っています。周波数マップを作成して、100回未満または10万回以上発生する文字列を破棄することができます。どのような種類のデータ構造を使用する必要がありますか？私はある種のブルームフィルタを考えています。

2熱

1答えて

MANETのベストフィルター

私はブルームフィルターについて知っています。保存要件が少なく、要素が "が明確に存在しないかどうか"を確認する必要がある場合、非常に便利です。またはが存在する可能性があります。モバイルデバイス、ブラウザインメモリ。 As Best example given by Tarun 私はあまりストレージが必要ありブルームフィルタよりも少なくとも2/3より良い&速いフィルタを知っておく必要がありますか？

1熱

2答えて

非常に低い確率で確率的に設定する

私は、アイテムがセットの一部である確率が非常に低いために最適化されたセットデータ構造を探しています。ユースケースはGnip/Twitter準拠のFirehoseで、毎秒約1,000件のイベントが発生します（これはTwitter全体からの削除です）。私たちはテーブルを持っています。記憶されたつぶやき（毎年その量だけ増えています）が1,000万と言いましょう。そして、アイテムが消防士に現れたら削除す