2017-08-15 22 views
1

以下のMWEを参照してください。カスタム定義されたトークナイザは動作しません。なぜですか?tmパッケージのカスタムトークナイザが動作しない

規約

ドキュメントの証言この

[1] "Thの" "S"「SA:TMパッケージのバージョンは0.71

library(tm) 

ts <- c("This is a testimonial") 
corpDs <- Corpus(VectorSource(ts)) 

#This is not working 
ownTokenizer <- function(x) unlist(strsplit(as.character(x), "i+")) 
tdm <- DocumentTermMatrix(corpDs,control=list(tokenize=ownTokenizer)) 
as.matrix(tdm) 

#This is working 
ownTokenizer(ts) 

出力でありますテスト ""月 ""アル "

01あなたは corpDS < -Corpus(...) によってcorpDS < -VCorpusを交換する必要があります:

は、私は、これは今、やや古いですけど、多分それはまだ他の人を助け、

トビアス

答えて

1

をありがとう(...) TermDocumentMatrixの説明にあるように、 "SimpleCorpus"コーパスは固定トークナイザでトークン化されているため、 "Corpus"と同じように見えます...

関連する問題