Rを使ったテキストマイニング：サブの使用

私はRのプロジェクトに参加しています。私は手を汚し始めています。Rを使ったテキストマイニング：サブの使用

最初の部分では、ベクトルmsgのデータを消去しようとしています。しかし、後でtermdocumentmatrixを作成すると、これらの文字は引き続き表示されます。変数は後で使用するよう、私は以下の4つの文字で単語を削除し、句読点

gsub("\\b\\w{1,4}\\b ", " ", pclbyshares$msg) 
gsub("[[:punct:]]", "", pclbyshares$msg) 
corpus <- Corpus(VectorSource(pclbyshares$msg)) 
TermDocumentMatrix(corpus) 
tdm <- TermDocumentMatrix(corpus) 
findFreqTerms(tdm, lowfreq=120, highfreq=Inf)

出典

2016-07-12 Claudio

は 'を見てください、再現例 – akrun

を記入してくださいをtm_map'と' content_transformer' –

を削除したいあなたは、コードの最初の2行を保存していません。だから、あなたのcorpus変数を作成する3行目では、変更されていないmsgデータを使用しています。これを試してみる：？

msg_clean <- gsub("\\b\\w{1,4}\\b ", " ", pclbyshares$msg) 
msg_clean <- gsub("[[:punct:]]", "", msg_clean) 
corpus <- Corpus(VectorSource(msg_clean)) 
TermDocumentMatrix(corpus) 
tdm <- TermDocumentMatrix(corpus) 
findFreqTerms(tdm, lowfreq = 120, highfreq = Inf)

出典

2016-07-12 20:15:56

後に意図したとおり – Claudio

は '見てmsg_clean'んまだ句読点を削除していないようです？上記の最初の2行は実行されますか？ –

Rを使ったテキストマイニング：サブの使用

答えて

関連する問題