私はこのFAQに従っています。私自身のクラシファイアをトレーニングするためにはhttps://nlp.stanford.edu/software/crf-faq.shtmlです。パフォーマンス評価結果が結果と一致しない(または少なくとも私が期待した通りではない)ことに気付きました。 スタンフォードCRFClassifierパフォーマンス評価出力
CRFClassifier tagged 16119 words in 1 documents at 13824.19 words per second. Entity P R F1 TP FP FN MYLABEL 1.0000 0.9961 0.9980 255 0 1 Totals 1.0000 0.9961 0.9980 255 0 1
は私が予測ラベルがMYLABEL
が予測されたが、金色のラベルはFN
は、すべてのインスタンスであることを、O
たすべてのインスタンスであることを金色のラベル、FP
にマッチしたすべてのインスタンスであることをTP
を期待して具体的に、このセクションO
が予測されたが、黄金はMYLABEL
であった。
プログラムの出力からこれらの数値を自分で計算すると、プログラムが印刷するものとはまったく異なる数字になります。私はさまざまなテストファイルでこれを試しました。 私は使用していますStanford NER - v3.7.0 - 2016-10-31
私には何かが欠けていますか?
私はこれを理解しています。私の質問はパフォーマンス評価です。簡単な例を取ってみましょう。ジョーは男の子です。予測されるエンティティが(Joe、PERSON)(is、O)(a、O)(boy、PERSON)であるとしましょう。これは1 TP 1FPを報告するはずですか?報告されたTP、FP、FNで私が観察していることではありません。 – user1170883
はい、リコールは100%、精度は50%にする必要があります。 – StanfordNLPHelp
評価データにはいくつのトークンがありますか? – StanfordNLPHelp