私は、2つの異なる分類システム(機械学習アルゴリズムに基づくものと人間によるグランドトラストに基づくもの)の間の一致を測定しようとしています。同じような種類のシステムを実装している人からの入力を探しています。ランクオーダーリスト間のエラーレートを測定する
分類スキーマは、各分類項目が重み付け係数を運ぶカテゴリ分類法において、各項目を複数の異なるノードに分類することを可能にする。例えば、いくつかの項目は、4つの異なる分類ノードに分類することができれば、結果は、アルゴリズムと地上真実分類のために次のようになります。
ALGO TRUTH
CATEGORY A: 0.35 0.50
CATEGORY B: 0.30 0.30
CATEGORY C: 0.25 0.15
CATEGORY D: 0.10 0.05
重みは、常にすべての選択のために、正確に1.0まで追加されます分類ノード(そのうちの約200個は分類分類にある)。
上記の例では、両方のリストがランクオーダー(ABCD)について合意していることに注意することが重要です。したがって、互いに強く合意しているとスコア付けする必要があります(それぞれに割り当てられたウェイトカテゴリ対照的に、次の例では、2つの分類は、次のランク付けに関しては完全に不一致である:。。
ALGO TRUTH
CATEGORY A: 0.40 0.10
CATEGORY B: 0.35 0.15
CATEGORY C: 0.15 0.35
CATEGORY D: 0.10 0.40
したがって、このような結果は非常に低いスコアを取得する必要があります
最後にもう一つの例人間が生成した地上真理に重複重複値が含まれている一般的なケースを示しています。
ALGO TRUTH
CATEGORY A: 0.40 0.50
CATEGORY B: 0.35 0.50
CATEGORY C: 0.15 0.00
CATEGORY D: 0.10 0.00
だから、(グランドトゥルースが有効にABCD、ABDC、BACD、またはBADCとして解釈される可能性があるため)アルゴリズムは、完全な順位の順序なしリストを可能にすることが重要です
私がこれまで試したスタッフ:
Root Mean Squared Error (RMSE):非常に問題があります。ランクオーダー契約は考慮されていません。これは、リストの一番上にあるカテゴリ間の総不一致が、リストの一番下にあるカテゴリについての合意によってラグの下で払われることを意味します。
Spearman's Rank Correlation:これは、ランクの違いを説明していますが、リストの最上位と最下位のランク契約に同じ重みを与えます。高レベルの不一致がエラーメトリックに寄与している限り、私は低レベルの不一致についてはあまり気にしません。また、複数のカテゴリが同値のランクを持つケースも処理しません。
Kendall Tau Rank Correlation Coefficient:Spearmanのランク相関と同じ基本的な特性と制限があります。
私は自分のアドホックメトリックを転がりについて考えてきたが、私には数学者だので、私は自分自身の小さなメトリックがはるかに厳格な価値を提供するかどうかの不審なことでしょう。この種の標準的な方法論があれば、私はむしろそれを使用したいと思います。
アイデア?
ここに加えて[CrossValidated](http://stats.stackexchange.com/)でこれを尋ねるのは間違いありません。 – walkytalky
マジックナンバーを定義する方法はたくさんありますが、あなたが何を達成しようとしているのか、どのように番号を使用するのか分からない限りは、賢明に定義する方法はありません。 –
RMSEは除外できますが、理由はありません。 2つの確率の差の2乗は、単に合理的な意味を持たない。 RMSEは、数値がガウス分散ノイズを持つ測定値である場合に意味があります。 –