2017-03-08 6 views
2

私は、教師なし学習クラスタリングアルゴリズムのパフォーマンスを向上させるために、ラベルなしデータセットのクラスター構造を活用するプロジェクトに取り組んでいます。マトリックスに記憶されている - - データを前処理した後、私はそうのようなデータをクラスタ化するためにk平均を使用:K平均クラスター - 各クラスターでのプロットクラスの割合

from sklearn.cluster import KMeans 
k = KMeans(n_clusters=40).fit(X) 

Iはyに格納された所望のラベルを持っています。私は、異なるクラスがどのようにクラスター化されているかを知ることに躊躇しています。クラスタが比較的純粋であるかまたは混合されている場合。

これを行うには、各クラスターの各クラスの割合を確認する必要があります。これは、バイナリ分類タスクです。正(1 in y)のインスタンスと負のインスタンス(yが0で表される)です。

(Yアレイのn番目の要素は、X行列の第n行の正しいラベルである。)私がパンダ使用する

+0

_positive_および_negative_インスタンスとは何ですか? – DyZ

+0

@DYZ編集した質問があります。 – scutnex

答えて

0

:に真ラベルとクラスタラベルを結合

import pandas as pd 

をデータフレーム:

01:クラスタによると、各クラスタのための

df = pd.DataFrame({'clusters' : k.labels_, 'labels' : y}) 

グループが1のの一部を取得します

関連する問題