Latent Dirichlet Allocationをscikit-learn
にバンドルしていますが、テキストの「主なトピック」はありません。複数のトピックについての文章があります。
HereはLDAの紹介です。 LDAは、ある確率で単語が生成されるトピック分布の混合物として文書をモデル化する。遭遇する可能性のあるトピックの種類を事前に指定する必要はありません.LDAが自動的にそれを実行します。より詳細には
、LDAは、一定の確率で言葉を吐き出す話題の混合物などの書類を表し:ブログ記事から引用
私はには、リンクされました。これは、文書は次の方法で を生産していることを前提としています。各ドキュメントを書くとき、あなたは
(ポアソン分布に に従って、例えば)単語数Nがあります文書を決定します。
ドキュメントのトピック混合を選択してください(固定されたKトピックのディリクレ分布に基づいて)。たとえば、上記の2つの食べ物とかわいい動物のトピックがあると仮定すると、 1/3食べ物と2/3 かわいい動物。
することにより、文書内の各単語のw_iを生成します。
-
- まずあなたは上記の をサンプリングした多項分布に応じて( トピックを選んで、たとえば、あなたは/ 1で食品のトピックを選ぶかもしれません3の確率 と2/3の確率でかわいい動物の話題)。 (トピックの多項 分布に従う)ワード自体を生成 にトピックを使用
- 。たとえば、フードトピックを選択した場合、 は30%の確率で「ブロッコリー」、15%の の確率で「バナナ」という単語を生成します。文書の 収集のために、この生成モデルを仮定し
、LDAは、 コレクションを生成していると思われるトピックのセットを見つけるために 文書から後戻りしようとします。