Rのテキストマイニング用語ドキュメントマトリックス

を変換するには、私が使用してバイグラムのリストを作成しました：Rのテキストマイニング用語ドキュメントマトリックス

BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2)) 
tdm_a.bigram = TermDocumentMatrix(docs_a, 
           control = list(tokenize = BigramTokenizer))

が、私は、各バイグラムがに登場された文書の数を取得しようとしています、私は理解していれば正しくターム文書行列が得られます。各バイグラムが文書内で何回出現するか。しかし、ドキュメントには '1'が、 '0'にはが必要です。

タームドキュメントマトリックスをデータフレームまたはマトリックスに変換してそのようなカウントを取得するにはどうすればよいですか？

出典

2017-07-07 Sir Oliver

TDMは、slamパッケージのsimple_triplet_matrixです。共通の行line/colSumsにはいくつかの機能があります。

slam::row_sums(tdm_a.bigram>=1)

これは、各バイグラムが含まれてどのように多くの書類を教えてくれなければなりません。

出典

2017-07-07 15:31:53 emilliman5

Rのテキストマイニング用語ドキュメントマトリックス

答えて

関連する問題