ブール検索モデルのクエリでは、異なる演算子を使用して結合された語句で構成されています。一見すると、共起は最も明白な選択ですが、クエリの長さが伸びると悪いことが起こりました。結合を使用しているときに結合と精度を使用したときには、リコールが大幅に低下しました(たとえば、stanford OR university
)。クエリ語句の削除
今のところ、私たちは検索システム(およびブール検索モデル)を使用しています。また、非常にまれな単語や長い単語のシーケンスを入力すると問題が発生します。たとえば、ユーザーがtoyota corolla 4wd automatic 1995
と入力した場合は、おそらく1つもありません。しかし、クエリから少なくとも1つの単語を削除すると、そのような文書があります。私がベクトル空間モデルで理解する限り、この問題は自動的に解決されました。 フィルタの用語の存在に関する事実に関する文書、ランクの用語を使用した文書。
私はブール検索モデルで用語を組み合わせるより高度な方法とブール検索モデルではまれな用語除去の方法に興味があります。
本当に良い点。現時点で達成しようとしていることは、ある程度の精度を失ってもリコールを最大限にすることです。検索システムが「文書が見つかりません」と言うと非常に悪いと思っています。逆に、関連性のない結果が多い人は、通常、クエリをどのように洗練するかを知っています。そこで、検索システムで文書が見つからない場合を最小限に抑えようとしています。 –