私は文字列を一緒に比較しており、最適なクラスター数を特定しようとしています。私は、次のデータセットがあります。私は今、私は次のコマンドを使用して、クラスターの最適な数を特定したい部分的に一致する文字列のための最適なカットツリー
dist <- adist(d$Fund)
rownames(dist) <- d$Fund
colnames(dist) <- d$Fund
hc <- hclust(as.dist(dist))
次のようにレーベンシュタイン距離を計算し、階層的クラスタを実行
d <- structure(list(Fund = structure(c(8L, 9L, 11L, 10L, 2L, 3L, 1L,
4L, 5L, 7L, 6L), .Label = c("Branch April China", "Branch April Europe",
"Branch April US", "Branch Emerging Markets EUR", "Branch Emerging Markets GBP",
"Branch Emerging Markets JPY", "Branch Emerging Markets USD",
"Branch EUR", "Branch GBP", "Branch JPY", "Branch USD"), class = "factor")), .Names = "Fund", class = "data.frame", row.names = c(NA,
-11L))
を:
df <- data.frame(d$Fund,cutree(hc,2))
私はクラスタの最適な数を見つけることについていくつかの読書をしましたが、それはより多くのkmeans
コマンドに関連しています。私の例では、どのように最適なクラスタ数を見つけることが可能ですか?あなたの大切な助けをありがとう
パッケージNbClustをご覧ください。 – KoenV
私は感謝しています、文字列を使って実装する方法がありますか? – richpiana