ローカリティセンシティブハッシングによる最近傍検索をサポートする軽量Javaライブラリを探しています。数十万点のデータポイントを持つ高次元(私の場合32)のデータセットにほぼ均等に分布したデータです。JavaのLSHライブラリ
クエリ用のバケット内のすべてのエントリを取得するのに十分です。私が本当に必要なものは、私の問題に含まれるいくつかのフィルタパラメータを考慮して、別の方法で処理することができます。
私はすでにlikelikeを見つけましたが、もう少し小さくなり、他のツール(Apache Hadoopのような場合など)が必要ないことを願っています。
...希望のスピードアップと指標のうち、優れた十分な精度を得ることをもたらす優れたパラメータを、見つけるの?私はkNNのメトリックとしてユークリッド距離で同じものを探していました。 –
本当にありません。しかし、自分で実装する必要があります。しかし、問題はまだ良いハッシュ関数を選択する方法はまだ... – s1lence
http://ttic.uchicago.edu/~gregory/download.htmlでmatlabの実装でハッシュ関数を使い始めることができます –