0

質問:テキストマイニングデータのクラスタ樹形図がぼやけて/乱雑になっているのはなぜですか(下の図のリンクを参照)。Rでマイニングされたテキストのクラスタがあいまいになっているのはなぜですか?

概要:私は最初にMongoデータベースから約5500件の電子スキャンされた記事のオリジナルデータを収集し、ディスクドライブにJsonオブジェクトとして保存しました(ここでは表示されていません。RのCran Mongoliteパッケージを使用して収穫しました)。ここに示されているのは、 "the"、 "and"、 "ing"、 ";"、 ":"などをクリーニングするための標準テキスト処理(Cran TMパッケージを使用)です。これは、Jsonオブジェクトの単語の中には文字の非常に長い組み合わせであり、別個に識別できる実際の単語ではないため、ファジィ/ MESSYに見える後続の階層的クラスタリングにつながります。

データへのパスと系統樹を経由してテキスト第三

docs <- tm_map(docs, removePunctuation) 
docs <- tm_map(docs, removeNumbers) 
docs <- tm_map(docs, removeWords, stopwords("english")) 
docs <- tm_map(docs, stripWhitespace) 
docs <- tm_map(docs, stemDocument) 
tdm <- TermDocumentMatrix(docs) 

クラスタリングを処理するテキスト

cname <- file.path("C:", "texts") 
docs <- Corpus(DirSource(cname)) 

のコーパスを作成する2

ライブラリの
library("tm") 
library ("SnowballC") 

を呼び出す

画像へ

リンク: cluster/dendrogram/text mining

答えて

0

回答は、より多くの私はすでに(私は以下のコードでそれらを切る方法を参照)行っていただけで、標準のストップワード

未満頻繁に言葉を、切断され、 mystopwords <- findFreqTerms(tdm, 1, 20) mystpwrds <- paste(mystopwords, collapse = "|") tdm <- tdm[tdm$dimnames$Terms[!grepl(mystpwrds,tdm$dimnames$Terms)],]

全体像とコードがここで公開されています

http://rpubs.com/antonyama/180574