2017-11-14 41 views
0

私は短いテキストの話題モデリングを扱っており、同じテーマに焦点を当てた3つのモデル、すなわちBTM、WNTM、 )。WNTM、BTM、LF-LDAのような短いテキストのトピックモデルは、ドキュメント用語行列のようなものを作成しますか?

私は従来のLDA(これはRパッケージtopicmodelsを使用して実装しました)では、テキスト文書の構造化されていない形がDocument-Term matrix(DTM)の構築を介してコンピュータ可読形式に変換されています。

私は、上記のモデルがDTMに似たマトリックスを作成する場合、特に同様の実装方法を使用しているのだろうかと思います。誰もそれを知っていますか?残念ながら、私は元の論文を読むことによってその情報を見つけることができませんでした。

ありがとうございます!

+1

あなたの質問はプログラミング問題ではなく、むしろモデルとその構造に関する一般的な質問ですので、SOの代わりに[Crossvalidated](http://stats.stackexchange.com)で質問することをお勧めします。私の知るところでは、LDAやCTM(VEMやGibbs)以外のモデルをカバーするRのトピックモデリングは実装されていません。対応するパッケージは 'topicmodels'、' lda'、または 'text2vec'であり、それぞれわずかに異なるサンプリング/推定アルゴリズムを使用します。 –

答えて

0

BTMとTKM(短いテキストの場合には、 - https://github.com/JohnTailor/tkm)は、DTM(Document Term Matrix)を構成しません。 WNTMはそれを構築するかもしれない。私はLF-LDAを知らない。 BTM、WNTMおよびTKMは、スライドウィンドウを使用して単語の位置を考慮する。 「家は白い」と「白い家は」ある種の環境下では異なる結果をもたらすかもしれない。 DTMは語順を捕捉しません。上記の例では、どちらも同じDTMを与えます。 WNTMは、トピック - 文書の分布を推測するときにDTMから利益を得るかもしれないが、そのパラメータ(単語 - トピック)の推論のためにはそうではない。

関連する問題