2017-03-10 6 views
0

私は、Luceneの文書のために一言の言葉を得ることができます。どのように私は同じことをするのですか?複数の言い回しのフレーズのカスタムリストについてはどうしますか?たとえば: 複数単語のフレーズのために文書の用語頻度を取得するにはどうすればよいですか?

The quick brown fox jumps over the lazy dog. 
The quick onyx goblin jumps over the lazy dwarf. 

用語頻度ベクトル

が表示されるでしょう:

Word  Frequency 
----  --------- 
the  4 
quick  2 
brown  1 
onyx  1 
fox  1 
goblin  1 
jumps  2 
over  2 
lazy  2 
dog  1 
dwarf  1 

しかし、私は「速い」というフレーズのインスタンスをカウントしたい場合、私は、次の文書内のテキストを持っていると言いますか?この場合、2つのマッチがあります。

答えて

1

私は単純な分析チェーンを使用していると思います。 >quick brown - - >brown fox - >fox jumps - >jumps over - >over the - >the lazy

the quick:トークンストリームからの出力は次のようになりますので、トークンフィルタのリストに(minShingleSize=2maxShingleSize=2で)ShingleFilterを追加することができます - >lazy dog

したがって、問題を既に解決済みの問題に減らします。

関連する問題