2016-11-29 3 views
0

RのquantedaパッケージとRとパッケージの両方の最新バージョンを使用しています。私は何百万という数の文書を集めています。Quantuma - ドキュメント変数をDFMに適用する

それぞれのドキュメントに日付のdocvarを持つquantumaからDFMを生成したとしましょう。ある日には何千もの文書が生成されますが、文書に適用されるDFMを日ごとに取得したい(つまり、1日ごとに単語数を合計するようにします)。私はquantumaがdata.tableを使って構築されていることを知っているので、これを行うことができるはずですが、私は「Getting Started with Quanteda」やこれを行うきっかけとなるStackOverflowではほとんど見つかりませんでした。

提案がありますか?

答えて

1

あなたはdfmに 'グループ' 引数をしたい:

> # Add some random dates to an existing corpus 
> docvars(data_corpus_inaugural)$date <- rep(as.Date(runif(19, 1, 18000), origin='1970-01-01'), 3) 

> dfm_inaugural <- dfm(data_corpus_inaugural, groups='date') 
> head(dfm_inaugural) 
Document-feature matrix of: 19 documents, 9,215 features (80.8% sparse). 
(showing first 6 documents and first 6 features) 
      features 
docs   fellow citizens i appear before you 
    1970-12-27  4  7 39  2  10 17 
    1972-04-25  8  13 29  1  8 8 
    1973-08-22  1  3 48  1  6 1 
    1973-10-11  2  4 25  0  3 5 
    1974-01-05  3  9 57  0  7 2 
    1975-04-12  7  21 63  4  6 16 
関連する問題