2016-04-06 11 views
1

単一の単語ではなく、特定の文章(2つ以上の単語を組み合わせたもの)を含むテキストからTDMを作成したいと考えています。文章は、例えば、"climate change""global worming""lad use"などとすることができます。私が見てきた例は、すべて一文字です。テキストマイニングR

tabela = DocumentTermMatrix(textolimpo, 
     list(dictionary = c("climate change","global worming","land use"))) 

誰かが私を助けることができれば感謝します。

乾杯。

ラファエル

答えて

2

私はquantedaをお勧めします。

library(quanteda) 
textolimpo <- c("This climate change concerns me. This climate changes", "Wormed: global worming increased") 
(dfm <- dfm(textolimpo, 
      ngrams=2L, 
      dictionary = list(climate="climate_change", 
          warm="global_worming"), 
      valuetype = "regex")) 
# 2 x 2 sparse Matrix of class "dfmSparse" 
#  features 
# docs climate warm 
# text1  2 0 
# text2  0 1 
(dfm <- dfm(textolimpo, 
      ngrams=2L, 
      thesaurus = list(climate="climate_change", 
          warm="global_worming"), 
      valuetype = "regex")) 
# 2 x 8 sparse Matrix of class "dfmSparse" 
#  this_climate change_concerns concerns_me me_this wormed_global worming_increased CLIMATE WARM 
# text1   2    1   1  1    0     0  2 0 
# text2   0    0   0  0    1     1  0 1 
+3

振戦で起こった世界的な温暖ですか? – rawr

関連する問題