以下に示すように、私は、84個の変数300人の観察とそれぞれとデータセットmydata
を有する:なぜk-meansはRの変数ではなく観測値をクラスタリングするのですか?
Iはmydata
5におけるクラスタクラスタには、次のコードを使用しています:これは、生成
mydata <- read.csv("mydata.csv", header = TRUE)
# K-Means Clustering with 5 clusters
fit <- kmeans(mydata, 5)
# Cluster Plot against first 2 principal components
# vary parameters for most readable graph
library(cluster)
clusplot(mydata, fit$cluster, color=TRUE, shade=TRUE, labels=2, lines=0)
私は84変数を名前でプロットすることを期待していました。観察に基づいて第1の画像を生成する。しかし、代わりに、最後の画像に見られるように、それは300の観測値を集めています。これを修正するには?
私はmydata
の転置を試みましたが、それでも問題は解決しません。
編集:私はこのようなプロットを期待していました(しかし、このプロットは別のデータセット用です)。このプロットは、プロット上の変数の名前を表示するためだけに表示されます。つまり、変数が(観測値に基づいて)プロットされています。あなたが言及
これがk-meansのやり方です。それは観測をクラスタリングする。なぜあなたはそれが何か違うと思いますか? –
@GordonLinoff私が求めている質問を理解してください。私は、あなたが私のことを理解できるように、サンプルクラスタを編集に含めました。 – Kristada673
ゴードンはあなたの質問に正しく答えました。変数全体を使用するときは、変数を介してグローバルな関連性に基づいて、エンティティ(観察)をクラスタ化します。各変数を別々にクラスター化したい場合は、コード内のデータを分割して各変数を個別に表示する必要があります。 – sconfluentus