2017-01-05 10 views
0

私は短い文書(それぞれ1または2段落)を用意しました。私は文書の類似性のために3つの異なるアプローチを使用しました: - tfidfマトリックスのシンプルコサイン類似性 - LDAモデルを全コーパスに適用し、LDAモデルを使用して各文書のベクトルを作成した後、コサイン類似性を適用しました。 - コーパス全体にLSAを適用し、LSAモデルを使用して各文書のベクトルを作成した後、コサイン類似度を適用しました。文書の類似性に対する異なるアプローチ(LDA、LSA、余弦)

実験に基づいて、LDAまたはLSAなしのtfidfマトリクス上のシンプルコサインシミラティについて、より良い結果が得られています。私がLDAやLSAを読んだところに基づいて結果を改善するべきですが、私の場合はそうではありません! LDAまたはLSAの結果が悪い理由はありますか? LDAとLSAの両方が1000ラウンド以上トレーニングされた場合、90%以上の確率で完全に無関係な文書間の類似性が見いだされます。

これについての正当な理由はありますか?

おかげ

答えて

0

私はLDA4j実装を使用し、TFIDFよりも良い結果を得て、同様にLSIのために私はsemantic-vector実装を使用していています。独自の実装を共有している場合は、モデルスケッチを共有します。よりよい結果を得るためにコーパスを正規化する必要があるもう1つのこと。

関連する問題