bloom-filter

    1

    1答えて

    私はBloomFilterを実装しており、[0、N]要素を追加し、フィルタに(n、oo)要素が含まれているかどうかを確認することで偽陽性の数を計算する必要があります。正しい偽陽性数を計算する際に問題が発生しています。私のループのたびに、possiblecontains()は私のフィルタに(n、oo)の要素が含まれていると私に伝えます。私は偽陽性に追加します。 しかし、私は16個の要素のフィルタを持

    3

    1答えて

    私はApache sparkでBloomフィルタのBreeze実装を使用しました。私はspark.kryoserializer.buffer.max価値を高めることができ、これを避けるために知っているが、原因クラスタリソースの制限のために、私はそれを増やすことはできません User class threw exception: org.apache.spark.SparkException: Jo

    0

    1答えて

    私は自分の(単純な)ブルームフィルタを実装しようとしていますが、ハッシングに固執しています。 しかし、私は私のハッシングで1トンの衝突を見ています。(現在のナノ秒に基づいて)1つのハッシュアルゴリズム(私はFNV、murmurhash、そして現在はファームハッシュを試しています)を使用しています。 私は間違ったことをしているに違いありません。私はinformation hereに従い、同じ量のシー

    1

    1答えて

    私は巨大なRDD(ソース)を持っており、BloomFilterのデータを作成する必要があるので、ユーザのデータへのその後の更新では真の "diffs" ブルームフィルタの実装のほとんどが(つまりかかわらず簡単に固定することができる)非直列化​​可能ですが、私は少し異なるワークフローをしたいように見える: プロセスのすべてのパーティションを、適切なブルームフィルタのインスタンスを作成しますそれぞれの

    1

    1答えて

    私は過去数日の間、鳩のようなフィルターで私の頭を包み込んでいます。私は、多くの点でブルームフィルタに比べて利点があることを理解しています。一般的には、使用することをお勧めします。 私が探しているアプリケーションの数は必要です。私はどこにでも情報を見つけることができません。なぜなら、鳩のようなフィルターでは「カウントが限られている」という理由があります。 (私は限界が7であると聞いたが) これは理論

    0

    1答えて

    私は類似のアイテムを見つけるためにBloom FiltersとMinhashingを実装すべきアプリケーションがあります。 私はブルームフィルタを実装していますが、私はそれを行うにはMinhashing部分を理解していることを確認する必要があります。 aplicationは、それが文書でK-長文字列と店舗数を生成し、その後、すべてのそれらはBloomに挿入されています。 ここで、MinHashを実

    -3

    1答えて

    でのHashMapの衝突で、有線のもの 私はleft_tableとright_tableの間で共通鍵を取得するためにHashMapを使用する場合(また、私はHashMapと比較するBloom Filterアルゴリズムをテストしていますので、私は注意を引くためのタグBloom Filterを追加し、HashMapこの問題があるかもしれません)、私はhm2(値のデフォルトは1)にright_table

    1

    1答えて

    enter image description here 私はpybloomfilterをインストールするには、ここhttps://github.com/axiak/pybloomfiltermmapに従い、最初私はsetuptoolsのエラーを得かかります。私はsetuptoolsをインストールし、Pythonからインポートすることができます。それからpybloomfilterのdirの下でsu

    0

    1答えて

    私たちは、任意の時間範囲(時間単位)にわたるアプリ内のユニークビジターについて報告したいユースケースを持っています。 例:時間0で私たちは{A、B、C、D}の訪問者を追跡し、時間1では{C、D、E、F} 、B}、時間3では{A、C}とする。 1時間から3時間の間にユニークビジターが何人あったかを回答する必要があります。同時に、0時から3時などのユニークビジター数にも答えられるはずです。 もちろん、

    0

    0答えて

    これで何も見つかりませんでしたので、ここで私の質問が答えを見つけることを願っています。設定 問題: すべてはブルームフィルタで採掘を高揚するために属します。 は私が今までどの段階でどのような場合にはMに達しない場合Nのために、いくつかの最大容量Mと各フィルタN. 内の項目の金額をブルームフィルタの数千を持っています。 偽陽性Pの 確率 - 0.001%私は漸進5つのインクリメンタル交差点を±して、