2
私は、教師なし学習クラスタリングアルゴリズムのパフォーマンスを向上させるために、ラベルなしデータセットのクラスター構造を活用するプロジェクトに取り組んでいます。マトリックスに記憶されている - - データを前処理した後、私はそうのようなデータをクラスタ化するためにk平均を使用:K平均クラスター - 各クラスターでのプロットクラスの割合
from sklearn.cluster import KMeans
k = KMeans(n_clusters=40).fit(X)
Iはy
に格納された所望のラベルを持っています。私は、異なるクラスがどのようにクラスター化されているかを知ることに躊躇しています。クラスタが比較的純粋であるかまたは混合されている場合。
これを行うには、各クラスターの各クラスの割合を確認する必要があります。これは、バイナリ分類タスクです。正(1 in y)のインスタンスと負のインスタンス(yが0で表される)です。
(Yアレイのn番目の要素は、X行列の第n行の正しいラベルである。)私がパンダ使用する
_positive_および_negative_インスタンスとは何ですか? – DyZ
@DYZ編集した質問があります。 – scutnex