0
とfallowコード私はcsv(200.000 docs)にあるすべてのドキュメントについて、各用語のtfidfを見つけようとしています。そして、それを含む列csvを1つ作成します。それぞれの項はtfidfで非減少である。私は少しサンプルを試して、私はそれが動作すると思います。大きなcsv Rstudioのために置くallways crasing ..任意のアイデア?tf:idfテキスト解析r
#read text converted to csv
myfile3 <- "tweetsc.csv"
x <- read.csv(myfile3, header = FALSE)
#make data frame
x <- data.frame(lapply(x, as.character), stringsAsFactors=FALSE)
# make vector sources
dd <- Corpus(DataframeSource(x))
# from tm package conculate tfidf
xx <- as.matrix(DocumentTermMatrix(dd, control = list(weighting = weightTfIdf)))
#data frame from columns to rows decreasing
freq = data.frame(sort(colSums(as.matrix(xx)), decreasing=FALSE))
write.csv2(freq, "important_tweets.csv")
ようこそ。あなたはあなたの質問を改善することができます。 [Rで最小限の再現可能な例を提供する方法](http://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example#answer-5963610)をお読みください。それに応じて編集して改善してください。良いポストは通常、最小限の入力データ、望ましい出力データとコードを提供します。すべてのコピー&ペーストは、新しい/クリーンなRセッションで実行可能です。しかし、あなたのコードでは、 "ファイル 'tweetsc.csv'を開くことができません:そのようなファイルやディレクトリはありません。 – lukeA
freq
PVoulg