はElasticsearchにLSHを可能にする任意のプラグインはありますか?はいの場合は、私はその場所に私を指摘し、それを使用する方法を少し教えていただけますか? ありがとう局所性鋭敏型ハッシュ - Elasticsearch
編集: 私はESがMinHashプラグインを使用していることを知りました。これでどのようにドキュメントを互いに比較できますか?重複を見つけるにはどうすればよいでしょうか?
はElasticsearchにLSHを可能にする任意のプラグインはありますか?はいの場合は、私はその場所に私を指摘し、それを使用する方法を少し教えていただけますか? ありがとう局所性鋭敏型ハッシュ - Elasticsearch
編集: 私はESがMinHashプラグインを使用していることを知りました。これでどのようにドキュメントを互いに比較できますか?重複を見つけるにはどうすればよいでしょうか?
Elasticsearch MinHash Pluginがあります。文書を索引付けし、後でminhashで文書に照会するたびに、ハッシュ値を抽出するために使用することができます。
$ curl -XPUT "localhost:9200/my_index/my_type/_mapping" -d '{
"my_type":{
"properties":{
"message":{
"type":"string",
"copy_to":"minhash_value"
},
"minhash_value":{
"type":"minhash",
"minhash_analyzer":"minhash_analyzer"
}
}
}
}'
$ curl -XPUT 'localhost:9200/my_index' -d '{
"index":{
"analysis":{
"analyzer":{
"minhash_analyzer":{
"type":"custom",
"tokenizer":"standard",
"filter":["minhash"]
}
}
}
}
}'
入れminhash_value
フィールド:あなたのインデックスを作成するとき
$ $ES_HOME/bin/plugin install org.codelibs/elasticsearch-minhash/2.3.1
がminhashアナライザを追加します。
MinHashプラグインをインストールします。 210
GET /_search
{
"query": {
"more_like_this" : {
"fields" : ["minhash_value"],
"like" : "KV5rsUfZpcZdVojpG8mHLA==",
"min_term_freq" : 1,
"max_query_terms" : 12
}
}
}
B:Use More like this queryはminhash_value
フィールドを検索 "のように" を行うために使用することができます。またfuzzy queryを使用することができますが、それは2
(最大)によって結果は異なるようにクエリを受け付けます。
GET /_search
{
"query": {
"fuzzy" : { "minhash_value" : "KV5rsUfZpcZdVojpG8mHLA==" }
}
}
あなたはあいまいクエリhereについての詳細を見つけることができます。
は、キーワードやテキストフィールドにあいまいクエリを使用することができます - ない[minhash_value]上のタイプである[minhash] – alizx
も興味を持って! – AdrianGW