私はRでtm-packageを使って文書用語行列を作成していますが、コーパス内の単語のいくつかはプロセスのどこかで失われてしまいます。tmパッケージ内のDocumentTermMatrixがすべての単語を返しません
例について説明します。のは、私は、TM-パッケージからDocumentTermMatrix()
を使用する場合、私はこの小さなコーパス
library(tm)
crps <- " more hours to my next class bout to go home and go night night"
crps <- VCorpus(VectorSource(crps))
があるとしましょう、それはこれらの結果を返します。
dm <- DocumentTermMatrix(crps)
dm_matrix <- as.matrix(dm)
dm_matrix
# Terms
# Docs and bout class home hours more next night
# 1 1 1 1 1 1 1 1 2
をしかし、私が欲しい(と予想)は次のとおりです。
# Docs and bout class home hours more next night my go to
# 1 1 1 1 1 1 1 1 2 1 2 1
DocumentTermMatrix()
はなぜ「my」、「go」、「to」という単語をスキップしますか?この機能を制御して修正する方法はありますか?
あなたは 'tm'パッケージを使用していると思いますか? 'crps'はどのようなオブジェクトですか?どのようにして 'クランプ'を手に入れましたか? 'crps < - Corpus(VectorSource(some_text_string))'のようなものを使いましたか? –
はい私は 'crps <-VCorpus(VectorSource(My_text))'を使用しました。 –