2013-08-01 22 views
9

Rのtmパッケージを使用して、各行がフィードバックの異なるインスタンスであるという顧客からのフィードバックのCSVファイルを取得しようとしています。このフィードバックのすべてのコンテンツをコーパスにインポートしたいが、DocTerms Matrixのフィードバックを比較できるように、各行をコーパス内の別のドキュメントにしたい。私のデータセットには10​​,000以上の行があります。CSVファイルのRテキストマイニング文書(1文書あたり1行)

もともと私は次のようでした:

fdbk_corpus <-Corpus(VectorSource(fdbk), readerControl = list(language="eng"), sep="\t") 

をこれが1つの文書と> 10,000行とコーパスを作成し、私は1行で>万のドキュメントごとをしたいです。

フォルダ内に10,000以上の別のCSVまたはTXTドキュメントを作成してコーパスを作成すると想像していますが、それよりはるかに簡単な答えがあると思います。 。

答えて

17

は、あなたが望む結果を得るために完全なワークフローです:dtmオブジェクトで

# change this file location to suit your machine 
file_loc <- "C:\\Documents and Settings\\Administrator\\Desktop\\Book1.csv" 
# change TRUE to FALSE if you have no column headings in the CSV 
x <- read.csv(file_loc, header = TRUE) 
require(tm) 
corp <- Corpus(DataframeSource(x)) 
dtm <- DocumentTermMatrix(corp) 

各行は、ドキュメント、または元のCSVファイルの行になります。各列は単語になります。

0

fdbkオブジェクトでTermDocumentMatrix()を使用し、各行が顧客からのフィードバックを表す用語ドキュメントマトリックスを取得できます。ここで

関連する問題