関連性スコアの計算方法に関する文書を読みました。しかし、私はまだ彼らが逆の文書頻度を考慮に入れた理由を理解することができません。逆文書頻度は文書の関連性にどのように影響しますか?弾性検索関連性スコアの計算における逆文書頻度の重要性
1
A
答えて
1
用語Tが非常に一般的な場合(たとえばストップワード、 "and"、 "the"など)、多くの文書で見つけることができますが、おそらくすべての文書を取得することには興味がありませんあなたはTという言葉があまりにも多くスコアリングに影響を与えたくないと思うかもしれません。
これはTF/IDF公式のIDF部分の仕事です。これは、より希な用語がスコアに寄与することを意味します。したがって、特定の文書の用語Tの用語TFにIDF全体の文書コーパスに対するその用語の割合。明らかに、特定の用語を含む文書が多くなればなるほど、その用語は関連性が低く/判別できなくなります。
文書Dに数回出現するが他のすべての文書に必ずしも出現しない用語「象」は、他のすべての文書よりも高いスコアを文書Dに与えるのに貢献する。
IDFは無視できるため、ほぼすべての文書に出現する用語「and」はスコアに大きく寄与しません。
関連する問題
- 1. 弾性検索の関連性スコア
- 2. 弾性検索関連性スコアリングと文書断片分布
- 3. フィールドペアの弾性検索頻度
- 4. 弾性検索文書数
- 5. 弾性検索における集約
- 6. 弾性検索 - 弾性検索文書の_scoreを増やす方法
- 7. 弾性検索連合クエリ
- 8. HABTM関連モデル用タイヤ/弾性検索
- 9. 弾性検索文書の保存
- 10. 弾性検索の文書化
- 11. 弾性検索:不適切なスコア
- 12. 弾性検索集計ミスマッチ
- 13. トルコ文字の弾性検索検索
- 14. 弾性検索クエリ構文
- 15. 弾性検索、二重のファセット
- 16. スプリングブート+スプリングデータの弾性検索+弾性検索5.6.0
- 17. 集計データの弾性検索フィルタ
- 18. AWS ElasticServiceのドメインにおける弾性検索でシャード
- 19. 弾性検索一語の類似度
- 20. ストアドプロシージャ検索弾性検索
- 21. 弾性検索検索フロントエンドデモ
- 22. MySQLの全文検索の関連性
- 23. 弾性検索で文書を検索する方法
- 24. 弾性の計算方法
- 25. 弾性検索インデックス
- 26. 弾性検索キャッシュ
- 27. スプリングブート、弾性検索
- 28. 弾性検索クエリプラグイン
- 29. 弾性検索マルチフィールドクエリ
- 30. 弾性検索インデックステンプレート
ありがとうございました。すべてをクリアしました。 –
恐ろしい、それは助けてうれしい。 – Val