2016-04-06 8 views
-1

ELKIにクラスラベルを提供していますelki-bundle-0.7.1ELKIクラスタリングは、それらが何を意味するのかを測定します。

これは、以下のような統計情報を提供していますが、何についての情報が見つかりませんか?

私はf1尺度、精度、およびリコールを知っていますが、どのように複数の尺度がありますか?クラスタリングの結果に基づいて計算されるはずのものではありませんか?

ありがとうございます

ペアカウント方法は?

Jaccard 0.3851744186046512 
F1-Measure 0.5561385099685204 
Precision 0.6463414634146342 
Recall 0.4880294659300184 
Rand 0.8368055555555556 
ARI 0.458537539334965 

FowlkesMallows 0.5616348272664993 

エントロピーベースの対策?

NMI Joint 0.5758289911830176 
NMI Sqrt 0.7309481146561948 

BCベースの対策ですか?

F1-Measure 0.7033781601851384 
Recall 0.6901589423648247 
Precision 0.7171136653895275 

セットマッチングベースの測定値ですか?

F1-Measure 0.7702702702702702 
Purity 0.7916666666666667 
Inverse Purity 0.7499999999999998 

編集距離尺度?

F1-Measure 0.6312576312576313 
Precision 0.6527777777777778 
Recall 0.6111111111111112 

ジニ対策はありますか?

Mean +-0.2958 0.703636303877176 
+0

別のスタック、すなわちあります - http://stackoverflow.com/questions/36439400/elki-clustering-measures-what-do-they-meanは - 私はそれがの確率が応答を得るだ​​けのことだ、何も言いませんよより高いです。 – shabunc

+0

MonsterMMORPG:ELKIコードには多くの文献があります。 ** JavaDoc **を参照してください。 Precision、Recall、F1は異なるサマリーで計算できるため、計算する内容に応じて精度、リコール、f1の精度が異なります。 –

+0

@ Anony-Mousse ty非常に答えがあります。私はクラスタリングの結果が必要です。ペア計数措置は私が見なければならないものですか?文学で使われているものは?私はいけない彼らのドキュメントからAnony-ムース@ – MonsterMMORPG

答えて

0

ELKIのドキュメントを参照してください。多くの評価尺度を実装しました。

PJ Rousseeuw
シルエット:計算と応用数学のジャーナル、ボリューム:クラスター分析で
の解釈と検証にグラフィカルな援助ここhttp://elki.dbs.ifi.lmu.de/wiki/RelatedPublications

シルエットのリストからの抜粋です20

ランドインデックス:

Rand、W.M.
クラスタリング方法の評価の目的基準
In:Journal of the American Statistical Association、Vol。 66号336

Fowlkes-Mallowsの:

Fowlkes、E.B. and Mallows、C.L.
BCubed 2つの階層クラスタリング

を比較するための方法であって、PROC:

A. Bagga及びB.ボールドウィン
エンティティ・ベースのクロスドキュメントのベクトル空間モデルを
を用いcoreferencing。計算言語学

第17回国際会議のCOLING '98議事

編集-距離:PROC:

Pantel、P.や林、D.委員会で

文書クラスタリング。情報検索における研究開発の第25回ACM SIGIR会議

エントロピーベースの対策:学習理論とカーネルマシン:で情報
の変動によるクラスタリングを比較

Meilă、M.

Nguyen、XV and Epps、J. and Bailey、J.
クラスタリング比較のための情報理論的対策:チャンスは必要ですか?
In:Proc。機械学習上の第26回国際会議のICML '09議事

セットマッチング純度:

シュタインバッハ、M.およびKarypis、G.とクマール、V.
文書の比較テキストマイニングでKDDワークショップ、2000年

E. AMIGO、J.はGonzalo、J. Artiles、及びF. Verdejo
外因クラスタリングevaluの比較:クラスタリング技法
形式的制約に基づくメトリクスメトリック
In:Inf。検索、vol。 12、no。 5

Meilă、M
比較クラスタリングで
:ワシントン、シアトル、技術報告書418の大学、2002

趙、Y.とKarypis、G.
基準の文書クラスタリングのための関数:実験とミネソタ大学、コンピュータサイエンス学部、技術報告書01から40、2001

C-ランキング:で分析

L. J.ヒューバートとJ. R.レヴィン
自由想起にカテゴリクラスタリングを評価するための一般的な統計的枠組み。
In:Psychological Bulletin、Vol。 83(6)

一致ペア:

F. B.ベイカー、及びL. J.アメリカ統計学会誌、70(349)

で分類
を比較するFJ Rohlf
方法:エコロジーと分類学

の年次レビューで階層クラスタ分析のパワー
を測定ユベール

デイヴィス - Bouldin:

DLデイビス及びDW Bouldin
クラスタ分離測定
において:IEEEトランザクションパターン解析および機械知能PAMI-1(2)

PBM:

MK Pakhira、及びS. Bandyopadhyay、及びU. Maulik
パターン認識、37(3)

:パリッとファジークラスタ内
ための有効性指数

分散比基準:

RB Calinski及びJ. Harabasz
のクラスタ分析
ためデンドライト方法:統計理論および方法での通信、3(1)

我々もDBCVを持っていますが、コードはまだレビューされずにマージされません。

私の個人的なお勧めは、偶然の調整のために調整済みランドインデックス調整ランドインデックスを使用しています。 0より小さいARIは、結果がランダムよりも悪いことを意味する。他のほとんどすべての測定では、ランダムな結果でさえ確実にスコアされます。

関連する問題