1

私はログファイルを要約するためのクラスタリングアルゴリズムを実装しましたが、現在、Adjusted RandインデックスとAdjusted Mutual Informationインデックスを使ってグランド真理値データに対してテストしています。調整された相互情報(scikit-learn)

アルゴリズムへの入力はログエントリのリストであり、出力は整数リスト(各アイテムが属するクラスターラベル)です。グランド真理は、同様に、各整数がアイテムが属する真のクラスタを表す整数のリストです。ほとんどのテストケースでは、正常/予期した結果が得られますが、1つのファイルで予期せぬ出力が得られます。私は2つのリスト、地上真実のクラスタリングを囲むだけでなく、私のアルゴリズムのとはしている:

グランドトゥルースリスト: http://pastebin.com/9Y5TE6b7

自身のクラスタリング: http://pastebin.com/hJz1M4sf

これら二つのリストがscikitに供給されていますARIとAMIを取得するための関数を呼び出す。 ARIスコアは概ね正しいと思われますが、AMIは1を超えています。正しく理解すれば、AMIのドキュメンテーションと定義は可能ではありません。このデータセットは非常に不均衡ですが、他の多くのファイルも同様にバランスが取れています。私はこれを理解できません。参考のために、私はARIとAMIのために得るのスコアは以下のとおりです。

ARI:0.99642743999922712

AMI:1.0190170466324

+0

https://github.com/scikit-learn/scikit-learn/issues/6718でバグを報告しました。これをキャッチするためにありがとう! – joeln

答えて

1

これは開発バージョンでfixedてきました。

関連する問題