2017-07-07 15 views
0

を変換するには、私が使用してバイグラムのリストを作成しました:Rのテキストマイニング用語ドキュメントマトリックス

BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2)) 
tdm_a.bigram = TermDocumentMatrix(docs_a, 
           control = list(tokenize = BigramTokenizer)) 

が、私は、各バイグラムがに登場された文書の数を取得しようとしています、私は理解していれば正しくターム文書行列が得られます。各バイグラムが文書内で何回出現するか。しかし、ドキュメントには '1'が、 '0'には が必要です。

タームドキュメントマトリックスをデータフレームまたはマトリックスに変換してそのようなカウントを取得するにはどうすればよいですか?

答えて

0

TDMは、slamパッケージのsimple_triplet_matrixです。共通の行line/colSumsにはいくつかの機能があります。

slam::row_sums(tdm_a.bigram>=1)

これは、各バイグラムが含まれてどのように多くの書類を教えてくれなければなりません。

関連する問題