2017-10-25 7 views
0

私はこのFAQに従っています。私自身のクラシファイアをトレーニングするためにはhttps://nlp.stanford.edu/software/crf-faq.shtmlです。パフォーマンス評価結果が結果と一致しない(または少なくとも私が期待した通りではない)ことに気付きました。 スタンフォードCRFClassifierパフォーマンス評価出力

CRFClassifier tagged 16119 words in 1 documents at 13824.19 words per second. Entity P R F1 TP FP FN MYLABEL 1.0000 0.9961 0.9980 255 0 1 Totals 1.0000 0.9961 0.9980 255 0 1

は私が予測ラベルがMYLABELが予測されたが、金色のラベルはFNは、すべてのインスタンスであることを、Oたすべてのインスタンスであることを金色のラベル、FPにマッチしたすべてのインスタンスであることをTPを期待して具体的に、このセクションOが予測されたが、黄金はMYLABELであった。

プログラムの出力からこれらの数値を自分で計算すると、プログラムが印刷するものとはまったく異なる数字になります。私はさまざまなテストファイルでこれを試しました。 私は使用していますStanford NER - v3.7.0 - 2016-10-31

私には何かが欠けていますか?

答えて

1

F1スコアはエンティティよりもラベルではありません。

例:

Joe Smith PERSON 
Hawaii  LOCATION 

エンティティは、同じラベルを持つすべての隣接するトークンを取ることによって作成されます。この例では

(Joe, PERSON) (Smith, PERSON) (went, O) (to, O) (Hawaii, LOCATION) (., O). 

は、2つの可能な実体があります。 (より複雑なBIOラベル付けスキームを使用しない限り、BIOスキームには、I-PERSONやB-PERSONのようなタグがあり、トークンがエンティティの始まりなどを示すなど)。

+0

私はこれを理解しています。私の質問はパフォーマンス評価です。簡単な例を取ってみましょう。ジョーは男の子です。予測されるエンティティが(Joe、PERSON)(is、O)(a、O)(boy、PERSON)であるとしましょう。これは1 TP 1FPを報告するはずですか?報告されたTP、FP、FNで私が観察していることではありません。 – user1170883

+0

はい、リコールは100%、精度は50%にする必要があります。 – StanfordNLPHelp

+0

評価データにはいくつのトークンがありますか? – StanfordNLPHelp

関連する問題