RのDocument-Term Matrixから項 - 項共出現行列Kを導出する。私はK-meansクラスタリング分析をKの次元は8962項x 8962項である。k-term項共起行列上のクラスタリングを意味する
次のように私は、関数kmeans関数にKを渡す:
for(i in 1:25){
#Run kmeans for each level of i, allowing up to 100 iterations for convergence
kmeans<- kmeans(x=K, centers=i, iter.max=100)
#Combine cluster number and cost together, write to df
cost_df<- rbind(cost_df, cbind(i, kmeans$tot.withinss))
}
X 8962件の用語590個の文書だったとDTM上で上記のコードを実行すると、私にぶら下げ問題を与えるものではありません私の元の文書期行列。しかし、そのサイズのために、キーワードごとの行列でぶら下がってしまいます。 これを克服する方法については、どんな提案も参考になります。
階層型クラスタリングを試みるとまだRがハングアップしていますが、マトリックスのサイズは問題ですが、これを回避する方法は不明です... – newdev14