文書の類似性に対する異なるアプローチ（LDA、LSA、余弦）

私は短い文書（それぞれ1または2段落）を用意しました。私は文書の類似性のために3つの異なるアプローチを使用しました： - tfidfマトリックスのシンプルコサイン類似性 - LDAモデルを全コーパスに適用し、LDAモデルを使用して各文書のベクトルを作成した後、コサイン類似性を適用しました。 - コーパス全体にLSAを適用し、LSAモデルを使用して各文書のベクトルを作成した後、コサイン類似度を適用しました。文書の類似性に対する異なるアプローチ（LDA、LSA、余弦）

実験に基づいて、LDAまたはLSAなしのtfidfマトリクス上のシンプルコサインシミラティについて、より良い結果が得られています。私がLDAやLSAを読んだところに基づいて結果を改善するべきですが、私の場合はそうではありません！ LDAまたはLSAの結果が悪い理由はありますか？ LDAとLSAの両方が1000ラウンド以上トレーニングされた場合、90％以上の確率で完全に無関係な文書間の類似性が見いだされます。

これについての正当な理由はありますか？

おかげ

出典

2017-01-05 Eli

私はLDA4j実装を使用し、TFIDFよりも良い結果を得て、同様にLSIのために私はsemantic-vector実装を使用していています。独自の実装を共有している場合は、モデルスケッチを共有します。よりよい結果を得るためにコーパスを正規化する必要があるもう1つのこと。

出典

2017-12-03 09:45:01

文書の類似性に対する異なるアプローチ（LDA、LSA、余弦）

答えて

関連する問題