不足している、私はいつもごとに、コーパスを作成します。R tmをドキュメント名がR {TM}パッケージを使用
mycorpus <- Corpus(DirSource(folder,pattern="txt"))
Iは、符号化変数を使用していないのでご注意ください。 summary (mycorpus)
には、リストされたドキュメント名が表示されます。 tm_mapのシリーズは、変換後しかし:
mycorpus<- tm_map(mycorpus, PlainTextDocument)
と
mydtm <- DocumentTermMatrix(mycorpus, control = list(...))
で終わる
(content_transformer(tolower),content_transformer(removeWords), stopwords("SMART"),stripWhitespace)
私は選択の私の変数を取得するinspect(mydtm[1:10, intersect(colnames(dtm), 'toyota')])
とエラーが表示されます。 Terms Docs toyota character(0) 0 character(0) 0 character(0) 0 character(0) 0 character(0) 1 character(0) 0 character(0) 0 character(0) 0 character(0) 1 character(0) 0
ファイル名(DOCのid)しています消えた。このエラーの原因は何でしょうか?もっと重要なのは、私はどのように文書名を元に戻すのですか?どうもありがとう。