情報検索の評価では、k個未満の文書が検索されると、精度はどのくらいになりますか? 5つの文書しか検索されなかったとしましょう。そのうち3つは関連しています。精度@ 10は3/10か3/5でしょうか?k個未満の文書が検索されるときの精度k
3
A
答えて
2
このような尺度のエッジケースを定義するテキストを見つけるのは難しいかもしれません。数式は、しばしばデータの不完全性を処理しません。このような問題については、NISTによって配布されたすべての一般的な検索手段、特にテキスト検索会議(TRECの課題)の課題で使用されているツールを実装したツールであるtrec_eval
の決定に目を向ける傾向があります。これは、あなたがいつもより少ないk
が取得された場合でもk
で割る必要があり、その精度があることを意味
Precision measured at various doc level cutoffs in the ranking.
If the cutoff is larger than the number of docs retrieved, then
it is assumed nonrelevant docs fill in the rest. Eg, if a method
retrieves 15 docs of which 4 are relevant, then P20 is 0.2 (4/20).
Precision is a very nice user oriented measure, and a good comparison
number for a single topic, but it does not average well. For example,
P20 has very different expected characteristics if there 300
total relevant docs for a topic as opposed to 10.
:trec_eval
9.0のm_P.c
内のメトリックの説明(このページの最新のと呼ばれる)パー
あなたの特定のケースでは0.6の代わりに0.3となります。 (k
よりも少なく検索するシステムを処罰する)。
もう1つのトリッキーなケースは、k
未満の関連ドキュメントがある場合です。このため、精度は参考になりますが、平均的な評価は得られません。
ランク付けと理想的ランク付け(カットオフ時)と(より単純な)R-Precisionを比較する正規化された割引累積ゲイン(NDCG):関連する文書ではなく、固定k
です。したがって、1つのクエリでR = 15のP15を計算し、別のクエリでR = 200のP200を計算することができます。
関連する問題
- 1. グループ別に精度がkのカスタムキャレットメトリック
- 2. Kファーストショートパスアルゴリズムの検索
- 3. k-meansのグリッド検索
- 4. KMeansがK個未満のクラスタを返すときに行うべきことは?
- 5. 最も近いk個の要素を検索する
- 6. バイナリ検索ツリーのK個の最小要素の合計
- 7. 要素数がk未満のサブアレイの数
- 8. K倍検証とランダムサンプリングk回
- 9. k-ary検索の平均比較がk * ln(N)/ ln(k)であるのはなぜですか?
- 10. k-NNの精度が間違っています
- 11. sklearn:テストデータセットのk-meansの精度スコアを計算する
- 12. n個の数値を合計がk未満の2つのグループに分割する
- 13. Xのすべてのx_iをK個のstに分割します。 var(Kのkに対する和(x in k))は最小化されます
- 14. KNNはK = 1で最高の精度を与えますか?
- 15. k-Nearest Neighbor VS類似性検索
- 16. k/vペアと未知数のPDO?
- 17. タイプのエラー:Kが未定義
- 18. Apacheのスパーク - スカラ - HashMapの(K、HashMapの[文字列、ダブル](V1、V2、...))((K、V1)、(K、V2)、...)
- 19. K個の別個の文字を含む文字列のサブシーケンスの数
- 20. トップkクエリーがk制約を満たすのに十分な文書を見つけられないとどうなりますか?
- 21. MATLAB K-は精度測定を意味します
- 22. C++の差--k [i]とk [i] -
- 23. マルチスレッドプログラム内の最近隣のk個
- 24. O(n)未満の文字列で文字を検索する
- 25. KNNのk = 1はなぜ最高の精度を与えるのですか?
- 26. .NETの辞書をオーバーライドする方法<K,V>配列検索 '[]'?
- 27. カウントソートO(n + k)時間の複雑度でkとは何ですか?
- 28. PSOとK-meansをベースにしたテキスト文書クラスタリングがR
- 29. アルゴリズムの漸近解析:時間nでソートされたリストnにk個の新しい要素を挿入する方法O(k log k + n)
- 30. k個の接続された頂点とワイト・サム・ベローズを見つける