text2vec
パッケージにprune_vocabulary
を適用した後にコーパスに残っている文書の数を確認することはできますか?ここでRテキスト2vecのテキストコーパスに文書の枝刈りの効果をプロットする
は
library(text2vec)
library(data.table)
library(tm)
#Load movie review dataset
data("movie_review")
setDT(movie_review)
setkey(movie_review, id)
set.seed(2016L)
#Tokenize
prep_fun = tolower
tok_fun = word_tokenizer
it_train = itoken(movie_review$review,
preprocessor = prep_fun,
tokenizer = tok_fun,
ids = movie_review$id,
progressbar = FALSE)
#Generate vocabulary
vocab = create_vocabulary(it_train
, stopwords = tm::stopwords())
#Prune vocabulary
#How do I ascertain how many documents got kicked out of my training set because of the pruning criteria?
pruned_vocab = prune_vocabulary(vocab,
term_count_min = 10,
doc_proportion_max = 0.5,
doc_proportion_min = 0.001)
# create document term matrix with new pruned vocabulary vectorizer
vectorizer = vocab_vectorizer(pruned_vocab)
dtm_train = create_dtm(it_train, vectorizer)
にし、剪定語彙データセットを取得するための一例であるterm_count_min
とdoc_proportion_min
パラメータは私のテキストコーパスにされているか、積極的な理解するための簡単な方法があります。
あなたは[再現可能な例]を提供する場合それはあなたを助けるために簡単です(http://stackoverflow.com/questions/5963269/how-to- make-a-great-r-reproducible-example)を使用して、テストや検証に使用することができます。 – MrFlick
私はMWEを追加しました。ありがとう! – sriramn