2
私はRでtm
を使用し、10kドキュメントを扱っています。私は索引でいくつかを調べたかったが、ファイルと一致していなかった。 tmは大量の文書を奇妙な順序で読み込むのはなぜですか、そしてそれはどのように修正/改ざんできますか?大量のドキュメントを読み込むtmパッケージを異常な順序で修正するには?
library(tm)
docs <- c()
for (i in 1:10000) {
docs <- c(docs, paste('test', i))
}
cor <- VCorpus(VectorSource(docs))
filepath = '/home/nate/Dropbox/MSDS/MSDS682_ncg_F8W2_17/test_cor'
writeCorpus(cor, path = filepath)
cor2 <- VCorpus(DirSource(filepath))
as.character(cor2[[1]])
as.character(cor2[[2]])
as.character(cor2[[3]])
as.character(cor2[[4]])
これはアウト出力します:
test 10000
test 1000
test 1001
test 1002