ファセットを使用したインデックスで最もよく使われる用語を見つけることができると私は知っています。入力を次の例elasticsearchで最も多く使われているフレーズを見つけるには?
:
"A B C"
"AA BB CC"
"A AA B BB"
"AA B"
用語ファセットはこの返します
B:3
AA:3
A:2
BB:2
CC:1
C:1
をしかし、私はそれが以下のリストを表示することが可能です思ったんだけど:
AA B:2
A B:1
BB CC:1
....etc...
ですElasticSearchにそのような機能がありますか?
'shingle'アナライザを使用するフィールドでカスタムアナライザを定義しようとしているかもしれません。これは単語を組み合わせることによってトークンを作成します(あなたが求めているように)。ファセットがこれらの結合されたトークンでカウントを返すかどうかを調べることができます。 [シングル・トークン・フィルターのes文書を見る](http://www.elasticsearch.org/guide/reference/index-modules/analysis/shingle-tokenfilter/) – ramseykhalaf
ありがとう、これは機能するかもしれません。ファセットはトークンを返すので、おそらくこれもこれらのphrase_tokensを返します。 これは既存のインデックスには適用されません。これはファイルサイズを大きくしすぎますか? 毎日5GBのデータにこの機能が必要になります。そして、その日が終わった後、私はもはやそれを必要としません。だから、私は毎日の終わりに5GBのデータをインデックス化し、ファセットの結果を保存し、その新しいインデックスデータを削除することをお勧めします。 (これはループで続きます)その他のオプションはありますか? – shyos
私は答えがhttp://stackoverflow.com/questions/39380463/get-top-100-most-used-three-word-phrases-in-all-documentsにあると信じています – AlexG