私は2つのドキュメントの間の類似性を見つけるためにjavaに取り組んできました。私は意味の類似性を見つけるのが好きですが、まだそれを見つける努力をしていません。私は次のアプローチを使用しています。Python対自然言語処理のためのJava
- 抽出用語/トークン(Iは同義語を除去するためのWordNetでJAWSを使用していますこのような類似性を改善する)
- 用語文書行列
- を行うLSA
- コサイン類似度
Iいくつかのstackoverflowページを見ていた、私はPythonの実装にかなりのリンクを持っています。私はPythonは、テキストの類似性を見つけるための優れた言語であり、また、私はあなたがプラットフォームの制限はありませんと仮定するのpython
Pythonでできることはすべて、Javaで(十分な作業で)行うこともできます。つまり、自然言語処理のための多くのツールを提供するPythonライブラリである[Natural Language Toolkit](http://www.nltk.org/)が存在します。 –