私は現在、luceneを使用してウェブページを索引付けしています。目的は、特定の式(通常1,2または3ワード)を含むページを抽出し、他の単語(またはそれらの1〜3つのグループ)もページに含まれているページをすばやく抽出できるようにすることです。 シソーラス(固定語彙)を構築/強化/変更するために使用されます。フレーズクエリとシングルフィルタを使用する違いは何ですか?
私が見つけた記事から、問題はn-grams(またはうねり)を見つけることであるようです。
LuceneはShingleFilter,ShingleMatrixFilterおよびShingleAnalyzerWrapperであり、このタスクに関連しているようです。
このpresentationから、Luceneは固定数の単語(スロープと呼ばれる)で区切られた語を検索することもできることを知りました。例はhereです。
しかし、私は明らかにそのアプローチの違いを理解していないのですか?それらは根本的に異なるのですか、それともパフォーマンス/インデックスのサイズの選択ですか?
ShingleMatrixFilterとShingleFilterの違いは何ですか?
希望するLuceneの達人がこの質問を見つけて答えてくれます;-)!
感謝。 ShingleFilterとShingleMatrixFilterの違いについてコメントできましたか? – blackbox
本当にいい説明。 この記事では、いくつかの手で帯状疱疹を理解するのに役立ちました:https://www.elastic.co/blog/searching-with-shingles – krinker