2016-05-02 7 views
0

RのDocument-Term Matrixから項 - 項共出現行列Kを導出する。私はK-meansクラスタリング分析をKの次元は8962項x 8962項である。k-term項共起行列上のクラスタリングを意味する

次のように私は、関数kmeans関数にKを渡す:

for(i in 1:25){ 
    #Run kmeans for each level of i, allowing up to 100 iterations for convergence 
    kmeans<- kmeans(x=K, centers=i, iter.max=100) 

    #Combine cluster number and cost together, write to df 
    cost_df<- rbind(cost_df, cbind(i, kmeans$tot.withinss)) 

} 

X 8962件の用語590個の文書だったとDTM上で上記のコードを実行すると、私にぶら下げ問題を与えるものではありません私の元の文書期行列。しかし、そのサイズのために、キーワードごとの行列でぶら下がってしまいます。 これを克服する方法については、どんな提案も参考になります。

答えて

0

k-meansは、座標が必要です。 を意味するので、k-meansと呼ばれています。

あなたには、ある種の類似性マトリックスがあります。代わりに他のクラスタリングアルゴリズムを選択してください。

+0

階層型クラスタリングを試みるとまだRがハングアップしていますが、マトリックスのサイズは問題ですが、これを回避する方法は不明です... – newdev14

0

あなたの行列は大きいですが、非常に疎です。スパース行列を使用してみてください。

関連する問題