2016-08-01 15 views
0

私はhttps://rstudio-pubs-static.s3.amazonaws.com/31867_8236987cf0a8444e962ccd2aec46d9c3.htmlRクラスタ分析

library(cluster) 
d <- dist(t(dtmss), method="euclidian") 
fit <- hclust(d=d, method="ward") 
fit 

plot.new() 
plot(fit, hang=-1) 
groups <- cutree(fit, k=5) 
rect.hclust(fit, k=5, border="red") 

どのように私は、各クラスタ内の単語を印刷することができますから、以下に記載するコードを以下でしたか?樹状図は非常に窮屈になり、完全に読めなくなります。

ありがとうございました!

EDITS:

入力については、 "コメント" という名前の列を持つ任意のcsvファイルを検討します。すべての観察(50行)はテキストコメントを持っています。私は、これは十分な情報であると思います

library(tm) 

input = read.csv("FILEPATH/InputFile.csv") 
summary(input) 

comments <- Corpus(VectorSource(input$Comment)) 

data <- tm_map(comments, removePunctuation) 
data <- tm_map(data, removeNumbers) 
data <- tm_map(data, tolower) 
data <- tm_map(data, removeWords, stopwords("english")) 
data <- tm_map(data, PlainTextDocument) 

dtm <- DocumentTermMatrix(data) 
freq <- colSums(as.matrix(dtm)) 
ord <- order(freq) 
findFreqTerms(dtm, lowfreq = 10) 
freq <- sort(colSums(as.matrix(dtm)), decreasing = TRUE) 
head(freq, 30) 

dtms <- removeSparseTerms(dtm, 0.1) 
inspect(dtms) 

library(cluster) 
d <- dist(t(dtms), method="euclidian") 
fit <- hclust(d=d, method="ward") 
fit 
plot(fit, hang=-1) 

plot.new() 
plot(fit, hang=-1) 
groups <- cutree(fit, k=5) 
rect.hclust(fit, k=5, border="red") 

は、私はその後、上記のリンクからコードを使用していました。

もう一度おねがいします。

+2

のメンバーの例をプリントアウトしなければなりません」ここに提示した、再現性がありません。チュートリアルの質問にMCVEの要件を満たすために必要なコードとデータがたくさんあると思います。 http://stackoverflow.com/help/mcve –

+0

虹彩データセットで再現しようとしました... –

+0

@ stata00その編集は大いに役立ちます。実際の入力ファイルが欠落していると思います。あなたが含めることができるチュートリアルの.csvへのリンクがありますか? –

答えて

0

あなたは観察が内のグループからであるクラスタを取得し、それらに基づいてデータをサブセットすることができます

t(dtms)[groups==1] 

あなたのように、クラスタ1

+0

私はそれを試しました。私はエラー "x $ nrowのエラー:$演算子は原子ベクトルのために無効です"を取得しています。 – stata00

+0

dtmssの構造は何ですか? dtmss $ nrowは、データセット内のnrowという変数(列)にアクセスしようとします。たぶん、あなたはdtmss [1:nrow]のようなものが欲しいですか? –

+0

私の投稿を編集しました。私は完全な例のためのコードを含んでいます。ありがとう! – stata00