2012-02-13 15 views
5

私は2つのドキュメントの間の類似性を見つけるためにjavaに取り組んできました。私は意味の類似性を見つけるのが好きですが、まだそれを見つける努力をしていません。私は次のアプローチを使用しています。Python対自然言語処理のためのJava

  1. 抽出用語/トークン(Iは同義語を除去するためのWordNetでJAWSを使用していますこのような類似性を改善する)
  2. 用語文書行列
  3. を行うLSA
  4. コサイン類似度

Iいくつかのstackoverflowページを見ていた、私はPythonの実装にかなりのリンクを持っています。私はPythonは、テキストの類似性を見つけるための優れた言語であり、また、私はあなたがプラットフォームの制限はありませんと仮定するのpython

+0

Pythonでできることはすべて、Javaで(十分な作業で)行うこともできます。つまり、自然言語処理のための多くのツールを提供するPythonライブラリである[Natural Language Toolkit](http://www.nltk.org/)が存在します。 –

答えて

2

に二つの文書間の意味的similairtyを見つけることができるかどうかを知りたいかどうかを知りたい

Pythonのツール(Natural Language Toolkit)を指摘したように、あなたが最も快適なもの(Python自身を好む)に基づいて言語を選択する必要があります。成熟した包括的です)。

私は個人的にはPythonを選択しますが、実際には自分で選択する必要があります。 JavaのNLPライブラリについて

== EDITの==

このquestionは、あなたの分析のためのJavaを使用することができるかどうかの判断に役立てるかもしれません。一番上の回答にはあなたが調査できるリストがあります。あなたの問題についての詳細な情報がなければ、より具体的なアドバイスはできません。

+0

ありがとう..私は決してPythonで以前に働いたことがない。しかし、それは機能の多くを持っている場合、私はPythonにシフトし、それを利用する必要があると思った。だから私はそれが有利になるかどうかを知りたかったのだろうか、それとも似たような機能しか与えないのだろうか。 – CTsiddharth

+1

私はより自然で表現力豊かな言語としてPythonを見つける。 **しかし、本当にそれは図書館のことです**。解決しなければならない問題があり、最良のライブラリがJavaベースのものであれば、JVMベースの言語を使用します。 – ironchefpython

+0

リンクをありがとう。私のプロジェクトは、参照文書との類似性に基づいて文書のランキングを目指しています。私は、ローカルリポジトリから最も関連性の高いドキュメントを見つけることを目指しています。リアルタイムで使用される見込みがあるので、できるだけ効果的にしたい。 – CTsiddharth

関連する問題