2016-04-06 3 views
0

私はテキストマイニングを初めて勉強しましたが、一定の期間にわたってツイートを解析したいと思っていました。行列をDocumentTermMatrixに変換する

私はツイートから数週間前につぶやいてしまったので、今分析中です。 DocumentTermMatrixを行列として保存し、DocumentTermMatrixに変換してデータに潜在的なディリクレの割り当てを行うのが難しくなっています。私はDTMのフォームに戻ってそれを得ることができないで、私は、データをロードすると、私は元々のデータに

write.csv(m, "matrix.csv") 

を保存

m <- read.csv("matrix.csv",header=TRUE) 
corpNR<-Corpus(DataframeSource(xNR)) 
dtmNR<-DocumentTermMatrix(corpNR) 
dtmNR$dimnames$Terms <- colnames(xNR) #add terms to DocTermMetrix 
str(dtmNR) 
dtmNR$ncol <- length(dtmNR$dimnames$Terms) #give it the right no. of cols 

これは私にDTMを与える方法

scrap<- searchTwitter("#RepealThe8th", n=1500) 
twscrap <- sapply(scrap, function(x) x$getText()) 
corpus1 <- Corpus(VectorSource(twscrap)) 
corpus1 <- tm_map(corpus1, 
       content_transformer(function(x) iconv(x, to='UTF-8-MAC', sub='byte')), 
       mc.cores=1) 

corpus1 <- tm_map(corpus1, content_transformer(tolower), mc.cores=1) 
corpus1 <- tm_map(corpus1, removePunctuation, mc.cores=1) 
corpus1 <- tm_map(corpus1, function(x)removeWords(x,stopwords()), mc.cores=1) 
corpus1 <- tm_map(corpus1, stemDocument, mc.cores=1) 

myStopwords = c("https", "http"); 
idx = which(myStopwords == "r"); 
myStopwords = myStopwords[-idx]; 
corpus1 = tm_map(corpus1, removeWords, myStopwords); 

corpus1 <- tm_map(corpus1, stripWhitespace) 
plaincorpus1 <- tm_map(corpus1, PlainTextDocument) 
dtm <- DocumentTermMatrix(plaincorpus1, control = list(minWordLength = 3)); 
m <- as.matrix(dtm) 

れたことdtmNR $ i、dtmNR $ jまたはdtmNR $ vの正しいデータを取得する方法がわからない

私も試しました

library(qdap) 
m1 <- as.Corpus(m) 
#Error in data.frame(grouping, text.var, check.names = FALSE, stringsAsFactors = FALSE) : 
# arguments imply differing number of rows: 2062, 1500 
#dtm1 <- as.DocumentTermMatrix(m1) 

dtm1 <- as.TermDocumentMatrix(m1) 
#Error in .TermDocumentMatrix(t(x), weighting) : 
# argument "weighting" is missing, with no default 

答えて

0

このようなcsvファイルには書き出さないでください。

代わりにsave(file='myDTM.RData', list=list(dtm)) # or similarを使用してください。それ以降はload('myDTM.RData')です。

+0

これは実現しましたが、すでにデータをCSVファイルに保存しています – Una