2016-04-27 3 views
1

これは前に議論されたかもしれないと思っていましたが、どういうわけか私は答えを見つけることができませんでした。gensimトピックを正しく解釈するには?

以下は、いくつかの顧客調査からgensim lsiを使用して生成されたトピックです。私の質問は次のとおりです:

  1. 単語の前にマイナス記号とプラス記号がありますか?
  2. ここでは5つのトピックを生成しました。どのようにして最適なトピック数が決まるのでしょうか?たとえば、統計的に3番目の話題の後に他のすべてはちょうど簡単です。

何か提案があります。

0.527 * "interest" + 0.475 * "lower" + 0.376 * "rate" + 0.338 * "rate" + 0.324 * "good" + 0.257 * "service" 0.671 * "good" + 0.586 * "service "+0.254 *"利 "+0.251 *"下 "+0.159 *"レート "+0.150 *"レート " 0.600 *"素晴らしい "+ 0.351 *"簡単 "+ 0.337 *"報酬 "+ 0.242 *-0.503 *「レート」+ 0.499 *「レート」+ -0.39 *「偉大」+ 0.364 *「高」+ -0.289 *「下限」+「-0.167 *」「サービス」+ 0.137 * "簡単" -0.608 * "簡単" + -0.303 * "レート" + 0.275 * "レート" + 0.244 * "使用" + -0.227 * "高"

答えて

1

メインLSIの背後にある機構は、用語 - 文書行列(TDM)上の特異値分解(SVD)である。ここでは詳しく説明しませんが、好きな場合はSVD on wikipediaについて読むことができます。

生成されるトピックは、用語の線形結合です。これらの線形結合は、(SVDを使用して)選択され、TDMの「低ランク近似」を作成する。

単語の重みの大きさは重要であると考えることができます。元のTDMを近似するにはどれだけ重要ですか。または、より緩やかに、トピックがTDMが基づいているコーパスを記述する上でどれほど重要であるか。

重みの兆候はお互いにしか重要ではありません(たとえば、すべてに-1を掛けて、線形結合を正しく解釈すると、同じ解釈が得られます)。各文書がそれぞれのトピックをどの程度持っているかを評価できる場合は、関連する単語がどのように文書をプッシュするかを示す記号が表示されます。たとえば、提供した出力では、第2のトピックでは、「関心」と「料金」という言葉の出現頻度の高い文書が少なくなければなりません。一方、「良い」と「サービス」の出現回数が多い文書は、第2のトピックでは高くなければなりません。

トピックの最適な数を決定するのは、コンテキストに固有ですが、ほとんどがコーパスのサイズに依存します。ここで(this answerから採取された)いくつかの一般的なガイドラインである:寸法より多数の、より特異的(またはそれ以上の有効ながら一般的なルールとして

は、より少ない寸法は、テキストのコレクションに含まれる概念のより広範な比較を可能にします関連する)概念の比較。使用できるディメンションの実際の数は、コレクション内のドキュメントの数によって制限されます。調査によると、約300のディメンションは通常、中規模のドキュメントコレクション(数十万ドキュメント)と大規模なドキュメントコレクション(数百万のドキュメント)の場合は400ディメンションで最も効果的です。しかし、最近の研究では、文書コレクションのサイズと性質に応じて50〜1000の寸法が適していることが示されています。