質問:テキストマイニングデータのクラスタ樹形図がぼやけて/乱雑になっているのはなぜですか(下の図のリンクを参照)。Rでマイニングされたテキストのクラスタがあいまいになっているのはなぜですか?
概要:私は最初にMongoデータベースから約5500件の電子スキャンされた記事のオリジナルデータを収集し、ディスクドライブにJsonオブジェクトとして保存しました(ここでは表示されていません。RのCran Mongoliteパッケージを使用して収穫しました)。ここに示されているのは、 "the"、 "and"、 "ing"、 ";"、 ":"などをクリーニングするための標準テキスト処理(Cran TMパッケージを使用)です。これは、Jsonオブジェクトの単語の中には文字の非常に長い組み合わせであり、別個に識別できる実際の単語ではないため、ファジィ/ MESSYに見える後続の階層的クラスタリングにつながります。
データへのパスと系統樹を経由してテキスト第三
docs <- tm_map(docs, removePunctuation)
docs <- tm_map(docs, removeNumbers)
docs <- tm_map(docs, removeWords, stopwords("english"))
docs <- tm_map(docs, stripWhitespace)
docs <- tm_map(docs, stemDocument)
tdm <- TermDocumentMatrix(docs)
クラスタリングを処理するテキスト
cname <- file.path("C:", "texts")
docs <- Corpus(DirSource(cname))
のコーパスを作成する2
ライブラリのlibrary("tm")
library ("SnowballC")
を呼び出す
画像へリンク: cluster/dendrogram/text mining