2016-05-16 11 views
0

私はrでtmパッケージを使用しています。私はstemCompletionを含めるまで、すべて正常に動作します。 tm_map(c, stemCompletion, c)引数xのにPlainTextDocumentを渡すので、理論的には、おそらくtm_map(c, content_transformer(stemCompletion), c)を使用したいと思い、rtmパッケージを使用したstemCompletionエラー

path = '~/Interviews/Transcripts/' 
file.names <- dir(path, pattern = '.txt') 

corpus = lapply(seq_along(file.names), function(index) { 
    fileName = file.names[index] 
    filePath = paste(path, fileName, sep = '') 
    transcript = readChar(filePath, file.info(filePath)$size) 
    transcript <- gsub("[’‘^]", '', transcript) 

    corpusName = paste('transcript', index, sep = "_") 

    c <- Corpus(VectorSource(transcript)) 
    DublinCore(c[[1]], 'Identifier') <- paste(index, fileName, sep ='_') 
    meta(c, type = 'corpus') 

    c <- tm_map(c, stripWhitespace) 
    c <- tm_map(c, content_transformer(tolower)) 
    c <- tm_map(c, removeWords, c(stopwords("english"), 'yeah', 'yep')) 
    c <- tm_map(c, removePunctuation) 
    c <- tm_map(c, stemDocument) 
    c <- tm_map(c, stemCompletion, c) 
    c <- tm_map(c, PlainTextDocument) 
    c 
}) 
+1

これは再現できません。これを掘り下げる誰かを見つけることを幸運。良い例を作る方法について[ここにいくつかの秘訣があります](http://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example)。 –

+0

'stemCompletion'は何をすると思いますか? – lukeA

答えて

1

まず:

Error in grep(sprintf("^%s", w), dictionary, value = TRUE) : 
    invalid regular expression 

私のコードは次のとおりです。私は次のエラーを取得していますstemCompletionですが、文字ベクタが必要です(?stemCompletion参照)。第2に、あなたがトークン化(例:?termDocumentMatrix)をしていないためにステムメンドトークンが存在しないため、あなたの辞書コーパスは既に縮まっているので、あなたがしようとしているのはこの方法ではうまくいかないかもしれません。

(そして第三に、私は、第二RomanLuš[email protected]:あなたの投稿を編集し、それ最小限の再現性のある例にしてください。この方法で、読者にこのエラーを目撃&他の人が、簡単に従うことができます。)

ここでは例です:

content(tm_map(Corpus(VectorSource("stem completion has advantages")), stemDocument)[[1]]) 
# [1] "stem complet has advantag" 

stemCompletion(c("complet", "advantag"), Corpus(VectorSource("stem completion has advantages"))) 
#  complet  advantag 
# "completion" "advantages" 
関連する問題