私はエルボー法を使って、シルエットで、データから最適な数のk個のクラスターを見つけようとしています。現在、ほとんどのパッケージでは、wss(類似点数内)またはシルエットを考慮すれば、PAM、Kmeans、クララで3を与えます。ヒューバートの分析では理想的に2つのクラスターになっています。奇妙なことだけが私には私に少し混乱させるプロットを与える以下のコマンドです。私はそれを3つのクラスターまたは4と見なすべきです。もし誰かが私にここでいくつかのフィードバックを与えることができます。それはクラスタの数を定義するためのプロットで考慮されるべき膝か肘ですか?
コードは、私もそれがここにクラスタ番号でなければなりません3または4だ場合は、1つは私に言うことができるように画像を置くしようとしています
wss <- (nrow(scale(df))-1)*sum(apply(scale(df),2,var))
for (i in 2:10) wss[i] <- sum(kmeans(scale(df),
centers=i)$withinss)
fviz_nbclust(scale(df), kmeans, method = "wss")
を使用しました。理想的には、私はWSSの全ポイントがSSEが多かれ少なかれ平等な場所にあるkを選ぶことなので、4にすべきだと思います。
これはa *ヒューリスティック*であり、実際の解決策は2であることを忘れないでください。または、または42. –
2と5はm現実的な鉱石であるが、42は反復プロセスでkを任意にクラスタリングするものである。毎回見る。私は反復kを使うアプローチがむしろ、行スケーリングに基づいてデータに最適なkを見つけるアプローチを使用したいと思っています。なぜなら、私は最終出力の行を減らしてから、いくつかのランキング手法を使いたいからです。それが32になると私はどのように言うことができますか? –
"最適な" kはありません(井戸、k = NはSSE 0では最適ですが、無用です)。ヒューリスティックのみが存在します。 –