0
公開レビューデータから相関トピックモデルを作成していて、かなり奇妙なエラーが発生しています。トピックモデリングR
CTMで用語(ctm1,5)を呼び出すと、各トピックの上位5つの用語ではなく、ドキュメントの名前が返されます。私が走った、より詳細には
、返さ
library(topicmodels)
library(data.table)
library(tm)
a <-Corpus(DirSource("~/text", encoding="UTF-8"), readerControl =
list(language="lat"))
a <- tm_map(a, removeNumbers)
a <- tm_map(a, removePunctuation)
a <- tm_map(a , stripWhitespace)
a <- tm_map(a, tolower)
a <- tm_map(a, removeWords, stopwords("english"))
a <- tm_map(a, stemDocument, language = "english")
adtm <-TermDocumentMatrix(a)
adtm <- removeSparseTerms(adtm, 0.75)
ctm1 <- CTM(adtm, 30, method = "VEM", control = NULL, model = NULL)
terms(ctm1, 5)
terms(ctm1)
Topic 1 "cmnt656661.txt"
(など)