2011-01-05 15 views
1

TermVery:ExtractTermsは、termvectors/positions/offsetsが有効になっていると、より高いカウントを生成しますか? (試合に1回以上出現したと仮定して)。逆に、反転されたファイル情報がオフになっていると、ExtractTermsは常に1を返します。Luceneスコアリング:TermVectorsを使用したTermQuery

EDIT:スキーマ内の用語ベクトルをオンにすると、スコアリングにどのように影響しますか?

答えて

1

TermQuery.ExtractTermsは、クエリの中の用語を抽出します。したがって、 "foo:bar"の検索では、索引の内容にかかわらず、常に1つの語句が返されます。

highlightingについて知りたいのですが、それはQuery.ExtractTermsではありません。

EDIT:あなたのコメントをもとに、あなたが求めているように、それが聞こえる:「?どのようには用語ベクトルの影響を受けを得点されます」それに対する答えは、まったくではありません。頻度、規範などの用語はインデックス時に計算されるので、あなたが何を保存しても問題はありません。

slop付きのPhraseQueryは、位置という用語を使用しています。例外はありませんが、カスタムスコアリングクラスでは必要なデータを使用できるため、用語ベクトルだけでなくペイロードなどもスコアに影響する可能性があります。

TermQueryを実行しているだけの場合は、保存しても効果がありません。

+0

Thx Xodarap。私は強調表示したくない。ありがとう。私は、パフォーマンスやハイライトではなく、用語集を使用しているかどうかのスコアリング効果について主に考えています。私は位置に基づいて得点のための参照を見つけることができません。 「第1回出現」スコアリングとして文献中で一般的に知られていること。 inv索引に位置情報を持たせる必要があります。近接検索と同じように。 – willemIP

+0

@willemIP:私があなたが求めていると思っていることを反映するために私の答えを更新しました。 – Xodarap

+0

@ Xodorap:したがって、デフォルトでは1回目のスコアリングは得られません。近接性もありませんか?しかし、スコアリングには効果があります。私は再現可能なケースを持っています。今私はこれがインデックス時間の変更かクエリ時間かどうかを判断しなければなりません。インデックス作成とクエリの両方が得点に影響します。検索フィールドに用語ベクトルを簡単に含める/除外することから、関連性の数字が急激に変化する原因はどれですか? – willemIP

関連する問題