2016-07-12 6 views
1

私はRのプロジェクトに参加しています。私は手を汚し始めています。Rを使ったテキストマイニング:サブの使用

最初の部分では、ベクトルmsgのデータを消去しようとしています。しかし、後でtermdocumentmatrixを作成すると、これらの文字は引き続き表示されます。変数は後で使用するよう 、私は以下の4つの文字で単語を削除し、句読点

gsub("\\b\\w{1,4}\\b ", " ", pclbyshares$msg) 
gsub("[[:punct:]]", "", pclbyshares$msg) 
corpus <- Corpus(VectorSource(pclbyshares$msg)) 
TermDocumentMatrix(corpus) 
tdm <- TermDocumentMatrix(corpus) 
findFreqTerms(tdm, lowfreq=120, highfreq=Inf) 
+1

は 'を見てください、再現例 – akrun

+0

を記入してくださいをtm_map'と' content_transformer' –

答えて

0

を削除したいあなたは、コードの最初の2行を保存していません。だから、あなたのcorpus変数を作成する3行目では、変更されていないmsgデータを使用しています。これを試してみる:?

msg_clean <- gsub("\\b\\w{1,4}\\b ", " ", pclbyshares$msg) 
msg_clean <- gsub("[[:punct:]]", "", msg_clean) 
corpus <- Corpus(VectorSource(msg_clean)) 
TermDocumentMatrix(corpus) 
tdm <- TermDocumentMatrix(corpus) 
findFreqTerms(tdm, lowfreq = 120, highfreq = Inf) 
+0

後に意図したとおり – Claudio

+0

は '見てmsg_clean'んまだ句読点を削除していないようです?上記の最初の2行は実行されますか? –

関連する問題