私はRのプロジェクトに参加しています。私は手を汚し始めています。Rを使ったテキストマイニング:サブの使用
最初の部分では、ベクトルmsgのデータを消去しようとしています。しかし、後でtermdocumentmatrix
を作成すると、これらの文字は引き続き表示されます。変数は後で使用するよう 、私は以下の4つの文字で単語を削除し、句読点
gsub("\\b\\w{1,4}\\b ", " ", pclbyshares$msg)
gsub("[[:punct:]]", "", pclbyshares$msg)
corpus <- Corpus(VectorSource(pclbyshares$msg))
TermDocumentMatrix(corpus)
tdm <- TermDocumentMatrix(corpus)
findFreqTerms(tdm, lowfreq=120, highfreq=Inf)
は 'を見てください、再現例 – akrun
を記入してくださいをtm_map'と' content_transformer' –