2016-07-13 6 views
1

私は最近R RecordLinkageパッケージを使用することを学んでいます。 2つのデータセット、8行の1と11と他のリンクと非常に小さな例では、私は結果を得る:R RecordLinkageパッケージ、アルファとベータのエラーを理解する

Linkage Data Set 

8 records in data set 1 
11 records in data set 2 
8 record pairs 

4 matches 
4 non-matches 
0 pairs with unknown status 


Weight distribution: 

[0.4,0.5] (0.5,0.6] (0.6,0.7] (0.7,0.8] (0.8,0.9] (0.9,1] 
     2   0   2   0   1   3 

3 links detected 
0 possible links detected 
5 non-links detected 

alpha error: 0.250000 
beta error: 0.000000 
accuracy: 0.875000 


Classification table: 

      classification 
true status N P L 
     FALSE 4 0 0 
     TRUE 1 0 3 

をどう理解するために失敗し、アルファ・エラー、ベータ誤差と精度の関係ですよClassificationテーブルを使用します。場所を正確に、それらがどのように計算されているから来下図されています

alpha error: 0.250000 
beta error: 0.000000 
accuracy: 0.875000 

すべてのヘルプは大幅に

答えて

2

アルファとベータのエラーを高く評価し、それぞれ、より一般的にタイプIとタイプIIエラーとして知られている統計的尺度、です。統計的には、α誤差は、それが真であると仮定して帰無仮説を棄却する確率である。ベータ・エラーは、それが真ではないと仮定して帰無仮説を表明する確率である(例えば、http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2996198/と比較)。

レコード結合の場合、nullヒュプシスはレコードペアがマッチである、すなわち2つのレコードが同じエンティティを表すということです。したがって、アルファエラーは、それが実際に一致(偽陰性)であることを条件に、ペアを不一致としてラベル付けする確率である。このエラーは次のように計算されます:(「非リンク」として分類された一致の数)/(一致の数)[1]上記の例では、4つの一致があり、そのうちの1つは認識されないため、アルファエラーは1/4 = 0.25となります。

同様に、ベータエラーは、ペアが実際に不一致(偽陽性)であることを条件にペアを分類する確率です。それは(「リンク」として分類される不一致の数)/(不一致の数)として計算される。上記の例では、偽陽性分類が存在しないので、ベータエラーの異なる分類テーブルを仮定する0である。この場合

  classification 
true status N P L 
     FALSE 2 0 2 
     TRUE 1 0 3 

、2が誤って分類された4つの非マッチは、ありますリンクとして、ベータエラーは2/4 = 0.5です。

最後に、精度は、すべてのペアの間で正しい分類の割合にすぎません(https://en.wikipedia.org/wiki/Evaluation_of_binary_classifiers#Single_metrics参照)。質問からの分類表には、7つの正しい分類(4つの不一致、3つの一致)があるので、精度は7/8 = 0,875である。

[1]実際のステータスとは対照的に、分類アルゴリズムの結果を意味するとき、私は '(non)match'の代わりに '(non)link'を使用します。

+0

ありがとう、非常に明確な説明 –

関連する問題