2017-05-18 8 views
-1

Rでステミングした後に単語を完成させるには?rテキスト解析の幹部補完

x <- c("completed","complete","completion","teach","taught") 
tm <- Corpus(VectorSource(x)) 
tm <- tm_map(tm, stemDocument) 
inspect(tm) 

実際のテキストコーパスとしての説明のための例ははるかに大きくなります。

私は以前のexamplesを検索しましたが、それは同義語のセットを作成することを指しますが、大きなコーパスに対してはどのように同義語辞書を取得することが可能ですか?動詞については、どのように現在の時制に単語を完成させることができますか? TMは現在時制に動詞を完了するためとしてstemCompletion()

x <- c("completed","complete","completion","teach","taught") 
tm <- Corpus(VectorSource(x)) 
tm <- tm_map(tm, stemDocument) 
inspect(tm) 
dictCorpus <- tm 
tm <- tm_map(tm, stemDocument) 
tm <- tm_map(tm, stripWhitespace, mc.cores=cores) 

tm<-tm_map(tm, stemCompletion,dictionary=dictCorpus) 

機能を持っているおかげ

答えて

2

は、私は、TMで可能であることを確認していません。 RWeka、word2vec、qdapにはメソッドがあるかもしれませんが、わかりません。

速く汚れた解決策は、type = shortestに設定してください。stemDocument一般的に、現在の緊張語は過去の緊張語やgerundsよりも短くなると思います。