2017-08-02 10 views
1

NLPアプリケーションの分類子を、2つの注釈子で注釈付けされたデータで評価する場合、注釈について完全に合意されていない場合、手順はどのようなものですか? つまり、クラシファイアの出力を、アノテータが同意したデータの部分だけと比較する必要があるのでしょうか?または注釈データの1つだけですか?またはそれらの両方を別々に計算し、次に平均を計算しますか?評価注釈付きデータを含むNLP分類器

答えて

0

アノテーター間で多数決を取ることは一般的です。不一致を捨てる。

Hereのテーマにブログ記事:

と仮定我々はアノテーターの束を持って、我々はアイテムに完全に一致していません。私たちは何をしますか?まあ、実際には、機械学習の証拠は、(1)合意なしに例を捨てる(例えば、RTEの証拠、生物学的に名前をつけた実体の証拠など)、または(2)多数のラベル知ってる)。いずれにしても、ラベルを人為的な確実性に減らすことによって膨大な量の情報を放棄しています。これをシミュレーションでかなり簡単に見ることができます.Raykar et al。実際のデータでそれを示しました。

あなたのために適切なのは、データに大きく依存し、注釈者の意見には多少の違いがあります。なぜなら、彼らが同意したアイテムだけを使って、それでモデルがそれに同意しなかったものと何を比較するのかを見るのはなぜですか?

関連する問題