2017-11-27 12 views
1

私は現在、text2vecパッケージのLDAを使用してトピックモデリングを行っています。私はdtm行列を作成し、次にとそのfit_transformメソッドをn_topics=50で適用しました。text2vec - トピックの単語は新しいデータで更新されますか?

各トピックのトップワードを見ているうちに、私の心に疑問が浮かびました。モデルを新しいデータに適用する予定です。以前にモデルでは遭遇しなかった新しい単語が出現する可能性があります。モデルは各単語をそれぞれのトピックに割り当てることができますか?さらに、これらの単語もトピックに追加されるので、get_top_wordsを使用してそれらを見つけることができますか?

ありがとうございます。

答えて

1

統計学習のアイデアは、「列車」データと「テスト」データの基本的な分布がほぼ同じであることです。あなたの新しい文書にまったく異なる分布が含まれていると、LDAが魔法のように働くとは期待できません。他のモデルでも同様です。

推論の間、トピック - 単語の分布は固定されています(トレーニング段階で学習されました)。したがって、get_top_wordsは、訓練を受けたモデルの後に常に同じ単語を返します。

もちろん、新しい単語は自動的には含まれません - DTMの構築前に学ぶ語彙から構築された文書用語行列と新しい文書には固定語彙の単語だけが含まれます。

関連する問題