複数単語のフレーズのために文書の用語頻度を取得するにはどうすればよいですか？

私は、Luceneの文書のために一言の言葉を得ることができます。どのように私は同じことをするのですか？複数の言い回しのフレーズのカスタムリストについてはどうしますか？たとえば：複数単語のフレーズのために文書の用語頻度を取得するにはどうすればよいですか？

The quick brown fox jumps over the lazy dog. 
The quick onyx goblin jumps over the lazy dwarf.

用語頻度ベクトル

が表示されるでしょう：

Word  Frequency 
----  --------- 
the  4 
quick  2 
brown  1 
onyx  1 
fox  1 
goblin  1 
jumps  2 
over  2 
lazy  2 
dog  1 
dwarf  1

しかし、私は「速い」というフレーズのインスタンスをカウントしたい場合、私は、次の文書内のテキストを持っていると言いますか？この場合、2つのマッチがあります。

私は単純な分析チェーンを使用していると思います。 >quick brown - - >brown fox - >fox jumps - >jumps over - >over the - >the lazy

the quick：トークンストリームからの出力は次のようになりますので、トークンフィルタのリストに（minShingleSize=2とmaxShingleSize=2で）ShingleFilterを追加することができます - >lazy dog。

したがって、問題を既に解決済みの問題に減らします。

2017-03-10 21:41:12

答えて