私は短い文書(それぞれ1または2段落)を用意しました。私は文書の類似性のために3つの異なるアプローチを使用しました: - tfidfマトリックスのシンプルコサイン類似性 - LDAモデルを全コーパスに適用し、LDAモデルを使用して各文書のベクトルを作成した後、コサイン類似性を適用しました。 - コーパス全体にLSAを適用し、LSAモデルを使用して各文書のベクトルを作成した後、コサイン類似度を適用しました。文書の類似性に対する異なるアプローチ(LDA、LSA、余弦)
実験に基づいて、LDAまたはLSAなしのtfidfマトリクス上のシンプルコサインシミラティについて、より良い結果が得られています。私がLDAやLSAを読んだところに基づいて結果を改善するべきですが、私の場合はそうではありません! LDAまたはLSAの結果が悪い理由はありますか? LDAとLSAの両方が1000ラウンド以上トレーニングされた場合、90%以上の確率で完全に無関係な文書間の類似性が見いだされます。
これについての正当な理由はありますか?
おかげ