2016-08-02 13 views
0

TermDocumentMatrix関数を適用しようとすると、tmパッケージに新しく、障害に遭遇しました。TermDocumentMatrixをtmパッケージに作成中にエラーが発生しました

関数が失敗するまで、私は、次のコードを使用している

myCorpus <- Corpus(VectorSource(posts$message)) 
myCorpus <- tm_map(myCorpus, content_transformer(tolower)) 
myCorpus <- tm_map(myCorpus, removePunctuation) 
myCorpus <- tm_map(myCorpus, removeNumbers) 

removeURL <- function(x) gsub("http[[:alnum:]]*", "", x) 

myCorpus <- tm_map(myCorpus, removeURL) 

myStopwords <- c(stopwords("english")) 
myCorpus <- tm_map(myCorpus, removeWords, myStopwords) 

myCorpusCopy <- myCorpus 
myCorpus <- tm_map(myCorpus, stemDocument) 

検査の際に文書のリストは、それがどうあるべきかであるかのように思える:しかし

> for(i in 1:5) { 
+ cat(paste("[[", i, "]] ", sep ="")) 
+ writeLines(myCorpus[[i]]) 
+ } 
[[1]] syntel recruitment drive week freshers newregistrationlink passout graduates 
qualification graduatebebtechmcamemtech 
syntel registration link 
limited referrals available 
comment emailids reference future job upd 
[[2]] dont miss opportunity get placed one best mnc companies world ebay freshers week january 
qualification graduate can apply 
ebay registration link 
comment emailids fast beacuse referrals left 
[[3]] recent passouts  eligible apply wipro go updated link lastday reference drive jan apply link fresher referral 
apply link 
go link apply asap 
[[4]] robertbosch recruitment drive week freshers newregistrationlink passout graduates 
qualification graduatebebtechmcamemtech 
robertbosch registration link 
limited referrals available 
comment emailids reference future job upd 
[[5]] mega job openings year 
mphasis recruitment freshers january 
qualification btech bsc bca graduates mca mba mtech post graduates 
mphasis registration link 
comment emailids comment box reference future job updates emailbox  

、作成した後、幹の完成のためのコーパスのコピー、問題が発生します。

回避策の候補はありますか?

答えて

1

は、私はあなたがTermDocumentMatrixを使用する前に、

myCorpus <- Corpus(VectorSource(myCorpus)) 

をリコールする必要があると思い、コードのあなたの最後の部分は次のようになります。

myCorpus <- tm_map(myCorpus, stemCompletion, dictionary = myCorpusCopy) 
myCorpus <- Corpus(VectorSource(myCorpus)) 
tdm <- TermDocumentMatrix(myCorpus, control = list(wordLengths = c(1, Inf))) 

文書の語幹まではエラーが発生していない場合前の手順で問題が解決されます。

0

そうでない場合には、最初に試してみてください:

myCorpus <- tm_map(myCorpus, PlainTextDocument) 

を使用する前に

myCorpus <- Corpus(VectorSource(myCorpus)) 
関連する問題