2016-08-11 6 views
0

私が知る限り、Python/RでLDAモデリングのトピック数を修正する必要があります。しかし、結果は次のように表示されます。topic=10文書、9つのトピックはすべて「健康」に関するものであり、この文書のトピック数は実際には2です。各トピックのキーワードを調べずに、どのように見分けることができ、本当に別個のトピックを手動で数えることができますか?Python/RでLDAの後に明確なトピックの数を見つける

P.S.私はグーグルでグーグルで、テーマ別に語彙リスト(ワードバンク)があることを学び、単語リストに基づいて各トピックをテーマとペアにすることができました。複数のトピックが同じテーマに該当する場合は、それらを1つの異なるトピックにまとめることができます。私は試してみる価値のあるアプローチだと思います。私はよりスマートなアイデアを探しています。

答えて

1

まず、LDAで特定されたトピックが本物の意味論的トピックに対応していると仮定します。その仮定については非常に注意し、そのように解釈したいトピックに割り当てられたドキュメントと言葉を見て、 LDAは多くの場合、ランダムな余分な単語が割り当てられているため、2つ以上の実際のトピックを1つにまとめることができます(特にいくつかのトピック全体で)、全く意味がありません( "ジャンク"トピック)。

あなたの質問に答えてみましょう:「異なる数の話題」のアイデアは全く明確ではありません。私が見てきた仕事のほとんどは、ドキュメントのトピックの割合が「重要」であるかどうかを判断するために単純なしきい値を使用します。

もっと原則的には、ドキュメントに表示されているトピックに割り当てられている単語の割合を調べることです。平均より "かなり"高い場合、トピックはドキュメントで重要ですが、やはりこれは多少の任意の閾値。私はここで意味のある選択肢を作るために何かを読んでいくことはできないと思う。

ドキュメントトピックの設定方法(通常はベータ版)によっては、(あなたの場合のように)いくつかのトピックに焦点を当てることはできませんが、ミックス。この場合、「トピックの別個の数」はあまり意味のないものになり始めます。

P.S.アプリケーションで意味のある単語リストを使用することは、候補トピックを識別するための悪い方法ではありません。モデルに多数のトピックがある場合は特に便利です(

PPS:LDAはあまり意味がなく、チャンスのある単語の同時発生を捕捉するため、合理的な数の文書(少なくとも数千件) PPPS:(Mallet LDAの実装で提供されているように)パラメータ最適化のトピック数が増えました。これはモデルに合理的な数のトピックを効果的に選択します。 「余分な」トピック

関連する問題