0
私はdtmを持っており、ドキュメント用語マトリックスから各ドキュメントの上位5つの用語を頻度別に抽出したいと考えています。 dtmのドキュメントごとの頻度別にトップフィーチャを抽出するR
は、私は、TMパッケージTerms
Docs aaaa aac abrt abused accept accepted
1 0 0 0 0 0 0
2 0 0 0 0 0 0
3 0 0 0 0 0 0
4 0 0 0 0 0 0
5 0 0 0 0 0 0
6 0 0 0 0 0 0
を使用して構築された
DTMを持って 必要な出力の形式は次のようになります。stackoverflowのは、他のANから、私は利用可能なすべてのソリューションを試してみました
Id
1 Term1 Term2 Term3 Term4 Term5
2 Term1 Term2 Term3 Term4 Term5
and so on for all the documents.
ソース のようなMake dataframe of top N frequent terms for multiple corpora using tm package in R(tdmに変換し、出力フォームに持って行こうとしましたが動作しませんでした)働くQuantedaを使用して