これは前に議論されたかもしれないと思っていましたが、どういうわけか私は答えを見つけることができませんでした。gensimトピックを正しく解釈するには?
以下は、いくつかの顧客調査からgensim lsiを使用して生成されたトピックです。私の質問は次のとおりです:
- 単語の前にマイナス記号とプラス記号がありますか?
- ここでは5つのトピックを生成しました。どのようにして最適なトピック数が決まるのでしょうか?たとえば、統計的に3番目の話題の後に他のすべてはちょうど簡単です。
何か提案があります。
0.527 * "interest" + 0.475 * "lower" + 0.376 * "rate" + 0.338 * "rate" + 0.324 * "good" + 0.257 * "service" 0.671 * "good" + 0.586 * "service "+0.254 *"利 "+0.251 *"下 "+0.159 *"レート "+0.150 *"レート " 0.600 *"素晴らしい "+ 0.351 *"簡単 "+ 0.337 *"報酬 "+ 0.242 *-0.503 *「レート」+ 0.499 *「レート」+ -0.39 *「偉大」+ 0.364 *「高」+ -0.289 *「下限」+「-0.167 *」「サービス」+ 0.137 * "簡単" -0.608 * "簡単" + -0.303 * "レート" + 0.275 * "レート" + 0.244 * "使用" + -0.227 * "高"