1
tm
パッケージを使用して準備されたドキュメント用語マトリックスで、構造化トピックモデル(stm
パッケージを使用)を実行しようとしています。STM:tmからstmへの変換時にメタデータを保持する方法
私は、次のメタデータが含まれていtm
パッケージ内のコーパス構築された:いくつかのテキストクリーニングを行うと、clean_corpus2
(まだ存在するメタデータ)として結果を保存した後
library(tm)
myReader2 <- readTabular(mapping=list(content="text", id="id", sentiment = "sentiment"))
text_corpus2 <- VCorpus(DataframeSource(bin_stm_df), readerControl = list(reader = myReader2))
meta(text_corpus2[[1]])
id : 11
sentiment: negative
language : en
を、私はマトリックス・ターム文書にそれを変更
library(stm)
chat_DTM2 <- DocumentTermMatrix(clean_corpus2, control = list(wordLengths = c(3, Inf)))
DTM2 <- removeSparseTerms(chat_DTM2 , 0.990)
DTM_st <-readCorpus(DTM2, type = "slam")
これまでのところ、とても良い:その後、stm
互換行列としてそれを読みます。しかし、私はstm
互換データを使用してメタデータを指定しようとすると、メタデータがなくなっている:
docsTM <- DTM_st$documents # works fine
vocabTM <- DTM_st$vocab # works fine
metaTM <- DTM_st$meta # returns NULL
> metaTM
NULL
にはどうすればtm
からメタデータを保持しないstm
互換文書長期行列にコーパスを-generated?どんな提案もありがとうございます。
こんにちは、私は最後にそれを考え出したが、ここでは偉大な答えを投稿してくれてありがとう! –