2011-07-08 13 views
2

OpenNLPツールスイートよりも優れた結果をもたらす統計エンジンはありますか?私が探しているのは、テキストからキーワードを選び、その動詞にステミングを与えるエンジンです。&名詞、おそらく自然言語処理はここに行く方法ではありません。エンジンは異なる言語でも動作するはずです。純粋な統計または自然言語処理エンジン?

+0

NLPはどのように「ここに行く」方法ではありませんか?あなたが言うことは、まさにNLPの問題です。 –

+0

使用しようとしている技術について統計的に何も表示されません。 –

+0

NLPとテキストマイニングが初めてです。テキストマイニングにNLPを使用する人がいると聞いていますが、これらは各言語のモデルに依存しています。私は、ほとんどの言語で動作する純粋な統計エンジンがあり、各言語のモデルは必要ないと聞いています。私はすべての必要な言語のモデルを見つけることができないことを心配しています。私はノルウェー人でOpenNLPは私の言語のモデルを持っていません。 –

答えて

2

LingPipeはおそらく完全なNLPツールと見なす価値があります。

しかし、すべてを行う必要がある場合は動詞と名詞を見つけて、それを幹、そしてあなただけの 1)トークン化テキスト 2)POSタガーを実行できる 3)ステマ

スタンフォードツールを実行します私は信じている複数の言語のためにこれを行うことができ、NLTKはそれを試してみる素早い方法です。

しかし、動詞と名詞の後につけてください。名詞句や複数語名詞についてはどうしますか?理想的には、nlpパッケージでこれを処理することができますが、その多くは作業しているドメインによって異なります。残念ながら、多くのNLPはデータがどれだけ良いかを示しています。

1

私はTreeTaggerとの良好な経験を持っていた:

http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/

それは速くスタンフォードのものよりも、使いやすく、そしてそこに「良い」ステマー/タガーに属します。すべての操作を一度に行います:トークン化/ステミング/タグ付け。

+0

興味深いですが、商用ライセンスがあります。私は無料で何かを望んでいた。 –

+0

これは本当に使い方が簡単ではありません。http://stackoverflow.com/questions/15503388/treetagger-installation-successful-but-cannot-open-par-file – alvas

+1

@ 2er0:これを言い換えれば、使いやすくなります他の多くのものよりも; P – dagnelies

2

Javaコードをお探しの場合は、Stanford's set of toolsをお勧めします。彼らのPOS taggerは、英語、ドイツ語、中国語、アラビア語で動作しますが(私は英語でのみ使用しました)、(英語のみの)字句解析ツールが含まれています。

これらのツールはすべて無料で、精度はかなり高く、Javaベースのソリューションではそれほど悪くはありません。主な問題はフレークなAPIと高いメモリ使用です。

3

多分異なる言語のステマーを開発したSnowballプロジェクトを探しているかもしれません。

関連する問題