dtmのドキュメントごとの頻度別にトップフィーチャを抽出するR

私はdtmを持っており、ドキュメント用語マトリックスから各ドキュメントの上位5つの用語を頻度別に抽出したいと考えています。 dtmのドキュメントごとの頻度別にトップフィーチャを抽出するR

は、私は、TMパッケージ

Terms      
Docs aaaa aac abrt abused accept accepted 
1 0 0 0 0 0 0 
2 0 0 0 0 0 0 
3 0 0 0 0 0 0 
4 0 0 0 0 0 0 
5 0 0 0 0 0 0 
6 0 0 0 0 0 0

を使用して構築された DTMを持って
必要な出力の形式は次のようになります。stackoverflowのは、他のANから、私は利用可能なすべてのソリューションを試してみました

Id 1 Term1 Term2 Term3 Term4 Term5 2 Term1 Term2 Term3 Term4 Term5 and so on for all the documents.

ソースのようなMake dataframe of top N frequent terms for multiple corpora using tm package in R（tdmに変換し、出力フォームに持って行こうとしましたが動作しませんでした）働くQuantedaを使用して

出典

2017-11-16 Bhavya

：

library(quanteda) 
txt <- c("hello world world fizz", "foo bar bar buzz") 
dfm <- dfm(txt) 
topfeatures(dfm, n = 2, groups = seq_len(ndoc(dfm))) 
# $`1` 
# world hello 
# 2  1 
# 
# $`2` 
# bar foo 
# 2 1

はまたDocumentTermMatrixとdfmの間で変換することができます。

それとも古典tmを使用して：

library(tm) 
packageVersion("tm") 
# [1] ‘0.7.1’ 
txt <- c(doc1="hello world world", doc2="foo bar bar fizz buzz") 
dtm <- DocumentTermMatrix(Corpus(VectorSource(txt))) 
n <- 5 
(top <- findMostFreqTerms(dtm, n = n)) 
# $doc1 
# world hello 
# 2  1 
# 
# $doc2 
# bar buzz fizz foo 
# 2 1 1 1 
do.call(rbind, lapply(top, function(x) { x <- names(x);length(x)<-n;x })) 
# [,1] [,2] [,3] [,4] [,5] 
# doc1 "world" "hello" NA  NA NA 
# doc2 "bar" "buzz" "fizz" "foo" NA

findMostFreqTermsはtm version 0.7-1以降で使用可能です。

出典

2017-11-16 11:55:33 lukeA

dtmのドキュメントごとの頻度別にトップフィーチャを抽出するR

答えて

関連する問題