2017-10-13 4 views
0

から開始するとき、私は特定のトピックに関する私共変量影響を推定します。STM:推定メタデータ/トピック関係<strong>Quanteda DFM</strong>に基づいて<strong>STM</strong>モデルを実行した後、DFM

STMモデルを実行しても問題は起こりませんでしたが、estimateEffect(以下のスクリプトの最終ステップで)を使用すると、Rセッションが中止され、「致命的なエラー」が発生したことが通知されます。

dfmから開始するときに共変量の効果をどのように推定できますか? STMマニュアルはdfmからSTMモデルを実行することについてアドバイスしていますが、この段階の後に共変量を扱う方法を見つけることができませんでした。

は、ここでは、コードです:また

# Read texts with Quanteda 
texts <- (readtext("C:/Users/renswilderom/Documents/Stuff Im working on at the moment/Newspaper articles DJ/test data/*.txt", 
     docvarsfrom = "filenames", dvsep = "_", 
     docvarnames = c("Date of Publication", "Length LexisNexis", "source"), 
     encoding = "UTF-8-BOM")) 

mycorpus <- corpus(texts) 

tokens <- tokens(mycorpus, remove_punct = TRUE, remove_numbers = TRUE, ngrams = 1) 

mydfm <- dfm(tokens, remove = stopwords("english"), stem = TRUE) 


# Run the STM model - Metadata is called with 'data = docvars(mycorpus)' 
stm_from_dfm <- stm(mydfm, K = 10, prevalence =~ Date.of.Publication + source, gamma.prior='L1', data = docvars(mycorpus)) 

# Estimate effects 
prep <- estimateEffect(1:10 ~ Date.of.Publication + source, stm_from_dfm, 
         meta = docvars(mycorpus), uncertainty = "Global") 

、私はSTMcorpus <- asSTMCorpus(mydfm)を使用して、私のDFMコーパスからSTMコーパスを作りました。しかし、私はSTMモデルを私のメタデータを認識しなかったので実行できませんでした。この代替戦略に従う方が良いでしょうか? (したがって、STMcorpus <- asSTMCorpus(mydfm)を実行した後、何らかの方法でSTMcorpusにメタデータを関連付ける必要があります)。

+0

再現可能な例がないと診断するのは難しいですか?また、asSTMCorpus(mydfm)を実行すると、quantedaにデータが含まれていると思います。メタデータは 'data'という名前のリスト内のオブジェクトです – bstewart

+0

これは実際の新聞記事のサンプルです:https://wetransfer.com/downloads/a50d8b8fd524359751e8aa68bac3256c20171016160720/3f3bb29e40362434594f44aeee1e67f720171016160720/b425d8私は好きです'stm_from_dfm'から作業しますが、必要であれば' asSTMCorpus(mydfm) 'から作業することもできます。私は 'data'リストを通してメタデータにアクセスしようとします。 – Rens

+0

私があなたに与えたデータサンプルでエラーを再現することができませんでした。 'estimateEffect()'を呼び出す直前にワークスペースのコピーを共有したいのであれば、私はそこから複製しようとすることができますが、それ以外の場合は、問題を再現できなければできることはあまりありません。 – bstewart

答えて

2

私は電子メールでこれを行いましたが、問題の形に遭遇する可能性がある他の人にはここで回答を追加します。

matrixStatsパッケージには、Windows上の大きな行列でRがクラッシュするバグがあります。このバグと解決方法は、https://github.com/HenrikBengtsson/matrixStats/issues/104で詳しく説明しています。この問題には、問題の簡単なテストと、それを修正するmatrixStatsの開発バージョンのインストール方法が記載されています。これはバージョンmatrixStats 0.52.2の問題であり、おそらく次のCRANリリースで解決されるでしょう。

関連する問題