2017-09-22 3 views
3

情報検索の評価では、k個未満の文書が検索されると、精度はどのくらいになりますか? 5つの文書しか検索されなかったとしましょう。そのうち3つは関連しています。精度@ 10は3/10か3/5でしょうか?k個未満の文書が検索されるときの精度k

答えて

2

このような尺度のエッジケースを定義するテキストを見つけるのは難しいかもしれません。数式は、しばしばデータの不完全性を処理しません。このような問題については、NISTによって配布されたすべての一般的な検索手段、特にテキスト検索会議(TRECの課題)の課題で使用されているツールを実装したツールであるtrec_evalの決定に目を向ける傾向があります。これは、あなたがいつもより少ないkが取得された場合でもkで割る必要があり、その精度があることを意味

Precision measured at various doc level cutoffs in the ranking. 
If the cutoff is larger than the number of docs retrieved, then 
it is assumed nonrelevant docs fill in the rest. Eg, if a method 
retrieves 15 docs of which 4 are relevant, then P20 is 0.2 (4/20). 
Precision is a very nice user oriented measure, and a good comparison 
number for a single topic, but it does not average well. For example, 
P20 has very different expected characteristics if there 300 
total relevant docs for a topic as opposed to 10. 

trec_eval 9.0m_P.c内のメトリックの説明(このページの最新のと呼ばれる)パー

あなたの特定のケースでは0.6の代わりに0.3となります。 (kよりも少なく検索するシステムを処罰する)。

もう1つのトリッキーなケースは、k未満の関連ドキュメントがある場合です。このため、精度は参考になりますが、平均的な評価は得られません。

ランク付けと理想的ランク付け(カットオフ時)と(より単純な)R-Precisionを比較する正規化された割引累積ゲイン(NDCG):関連する文書ではなく、固定kです。したがって、1つのクエリでR = 15のP15を計算し、別のクエリでR = 200のP200を計算することができます。

関連する問題