2012-01-19 6 views
0

私は朝からかなりのチュートリアルを読んでいます。私の問題は、2つのドキュメント間の類似性を見出すことです。私はこの目的のためにjavaでLSAを使用することを楽しみにしています。LSA - SVDを見つけた後の手順

用語文書行列の作成を理解してから、SVD(Dimensionality reduced)が適用されました。 3行列が結果として得られます。これは馬鹿に聞こえるかもしれませんが、私はかなり長い間このことに固執しています。今、もし私が2つの文書の間の類似点を見つけなければならないとすれば、何をしなければならないのですか?

+0

私は2つのドキュメントだけを比較しているので、LSAを使用すると効果的でしょうか? – CTsiddharth

答えて

0

SVDを使用して3つの行列を計算した後、比較する2つの文書のベクトル間の相関関係を計算する必要があります。あなたはスピアマンの相関関係を使うことができます。 もう一つの方法は余弦距離を使うことです。

詳細はLSAにありますが、解説の完全な例があります。

LSA用のいくつかのJavaライブラリを検索することがあります。

+0

こんにちは、私は最近、このリンクに出くわしました。 http://www.miislita.com/information-retrieval-tutorial/svd-lsi-tutorial-4-lsi-how-to-calculations.html。このアプローチは単純で、私の目的を完全に果たしているようです – CTsiddharth

関連する問題