locality-sensitive-hash

    21

    4答えて

    ローカリティセンシティブハッシングによる最近傍検索をサポートする軽量Javaライブラリを探しています。数十万点のデータポイントを持つ高次元(私の場合32)のデータセットにほぼ均等に分布したデータです。 クエリ用のバケット内のすべてのエントリを取得するのに十分です。私が本当に必要なものは、私の問題に含まれるいくつかのフィルタパラメータを考慮して、別の方法で処理することができます。 私はすでにlike

    3

    1答えて

    私は一般的な指紋を実装しようとしていますmemoizator:知的な指紋(画像の場合はpHash、オーディオの場合はchromaprintなど)で表現できるファイルがあり、飾り付けられた(高価な)関数が既に同様のファイルの場合、同じ結果が返されます(高価な計算を避ける)。 Locality Sensitive Hash(LSH)は、高価な多次元空間における問題のために一般的であり、優れた解決策です

    10

    1答えて

    はElasticsearchにLSHを可能にする任意のプラグインはありますか?はいの場合は、私はその場所に私を指摘し、それを使用する方法を少し教えていただけますか? ありがとう 編集: 私はESがMinHashプラグインを使用していることを知りました。これでどのようにドキュメントを互いに比較できますか?重複を見つけるにはどうすればよいでしょうか?

    6

    2答えて

    Min HashでLSH(局所的に敏感なハッシング)を実装するためのチュートリアル、ドキュメント、コードをたくさん読んでいます。 LSHは、ランダムサブセットをハッシングし、それらを積み重ねることによって2セットのJaccard係数を見つけようとします。私はcode.google.comの実装を見てきましたが、その方法も理解できませんでした。私は論文Google news personalizat

    3

    1答えて

    Cのデータ構造(ハッシュテーブル)を使いこなしています。私はそれがどのように動作するかをよりよく理解したいので、あらかじめ構築されたハッシュテーブルライブラリ(STLなど)を使用していません。 ここでは、各要素がキーと文字列要素データ(文字の配列)と文字列要素データの長さを含む要素のリストを含むハッシュテーブルを作成します。 私の実装はうまくいきますが、私の同僚と議論した後、私の実装は効率的ではな