minhash

    0

    1答えて

    私は次の2つのテキストを持っています: text0 = "AAAAAAAAAAAA"; text1 = "AAAAABAAAAAA"; 4面取りを使用しています。したがって、text0 = {AAAA}、text1 = {AAAA、AAAB、AABA、ABAA、BAAA}。 次に、Jaccardの類似度はsim = 1/5 = 0.2です。 私はこの結果を望んでいません。 2つのテキストは類似して

    2

    3答えて

    私は膨大な量(1500万)の整数ペアを持ち、それぞれがドキュメントIDに関連付けられています。私の目標は、同じペアを持つドキュメントを検索することです。 私の最初のアイデアは、すなわちmap<pair<int,int>, unordered_set<int>> 例えば、関連する値としてキーと対値と文書IDを使用してハッシュマップ(std::map)を使用することであった。 Document1

    1

    2答えて

    結果は固定数の配列です。pythonのリスト(すべて同じ長さ)を考えてみましょう。 これも行列として見ることができるので、cでは、すべてのセルが別の配列を指す配列を使用します。どのようにPythonでそれを行うには? すべての商品がリストなどのリストです。 私は辞書を考えましたが、キーは1,2,2、...、Mなので、ここに行くにはピッソニックなのか分かりません。 私は実装には興味がありません。どの

    1

    2答えて

    私はFindSimilarというクラスを持っています。このクラスはminHashを使って2セット間の類似点を見つけます(この目的のためにはうまくいきます)。私の問題は、2セット以上を比較する必要があることです。具体的には、与えられたset1と未知の量の他のセットとを比較する必要があります。ここではクラスがある: import java.util.HashSet; import java.util

    0

    1答えて

    2つのSeriesオブジェクトを持っている場合、[0,0,1] [1,0,0] どうすれば2つの交差点と共用体を得ることができますか? これらはブール値のみを含みます。つまり、一意でない値です。 私は大きなブール行列を持っています。私はそれをminhashedして、今私は、それぞれの元のペアのJaccardの類似性を取得する必要があると私は思う偽陽性とネガティブを見つけることを試みています。

    10

    1答えて

    はElasticsearchにLSHを可能にする任意のプラグインはありますか?はいの場合は、私はその場所に私を指摘し、それを使用する方法を少し教えていただけますか? ありがとう 編集: 私はESがMinHashプラグインを使用していることを知りました。これでどのようにドキュメントを互いに比較できますか?重複を見つけるにはどうすればよいでしょうか?

    0

    1答えて

    私は類似のアイテムを見つけるためにBloom FiltersとMinhashingを実装すべきアプリケーションがあります。 私はブルームフィルタを実装していますが、私はそれを行うにはMinhashing部分を理解していることを確認する必要があります。 aplicationは、それが文書でK-長文字列と店舗数を生成し、その後、すべてのそれらはBloomに挿入されています。 ここで、MinHashを実

    6

    2答えて

    Min HashでLSH(局所的に敏感なハッシング)を実装するためのチュートリアル、ドキュメント、コードをたくさん読んでいます。 LSHは、ランダムサブセットをハッシングし、それらを積み重ねることによって2セットのJaccard係数を見つけようとします。私はcode.google.comの実装を見てきましたが、その方法も理解できませんでした。私は論文Google news personalizat

    1

    2答えて

    私はsimhashと一緒に働いていますが、minhashがより効果的であることも見ています。 しかし、私は理解していません。 私のために説明してください:simhashよりもさらに有利なミニハッシュはありますか?