2017-05-09 6 views
0

公開レビューデータから相関トピックモデルを作成していて、かなり奇妙なエラーが発生しています。トピックモデリングR

CTMで用語(ctm1,5)を呼び出すと、各トピックの上位5つの用語ではなく、ドキュメントの名前が返されます。私が走った、より詳細には

、返さ

library(topicmodels) 
library(data.table) 
library(tm) 

a <-Corpus(DirSource("~/text", encoding="UTF-8"), readerControl = 
list(language="lat")) 
a <- tm_map(a, removeNumbers) 
a <- tm_map(a, removePunctuation) 
a <- tm_map(a , stripWhitespace) 
a <- tm_map(a, tolower) 
a <- tm_map(a, removeWords, stopwords("english")) 
a <- tm_map(a, stemDocument, language = "english") 
adtm <-TermDocumentMatrix(a) 
adtm <- removeSparseTerms(adtm, 0.75) 

ctm1 <- CTM(adtm, 30, method = "VEM", control = NULL, model = NULL) 
terms(ctm1, 5) 

terms(ctm1) 
      Topic 1 "cmnt656661.txt" 

(など)

答えて

0

私たちはあなたのデータを提供していなかったので、確実に知ることはできません。ファイルを正しくインポートしなかった可能性があります。参照してください?DirSource(私の強調):

ディレクトリフルパス名の文字ベクトル。デフォルトの は、作業ディレクトリgetwd()に対応しています。あなたのケースでは

あなたはこのような何かを行う必要がありますように、それはそうです:

a <- Corpus(DirSource(list.files("~/text", full.names = TRUE))) 
関連する問題