2010-11-30 3 views
2

私はNLPには新しく、いくつかのチュートリアル、ドキュメンテーションまたはサンプルコードの点から出発点を探しています。 自然なテキストを処理して構造化されたデータを抽出する可能性を研究するように指示されました。 たとえば、次のステートメントから高さと重さを抽出(注釈)したいとします。 「身長6フィート、体重200ポンド」または 「身長は6フィート、体重は200」など 私はUIMAを調べましたが、トレーニング機能のない自己作成のREGEX辞書のようです。 要するに、どのようなJavaフレームワークを使って訓練できるアノテーションエンジンを作成することができますか? これに関する助け(ポインタ)は大いに感謝されます。 ありがとうNLPの新機能、アノテーションに関する質問

+0

をところでここで私はあなたの入力テキストを参照出力されます。情報抽出技術の芸術の始まりについて学ぶために、私はSunita Sarawagiによる最近の調査を読むことを勧めます - http://osm.cs.byu.edu/CS652s09/papers/Sarawagi.ieSurvey.pdf – Skarab

答えて

2

機械学習を使用してアノテーターをトレーニングしたい場合は、おそらくGATEが最適です。そのガイドのmachine learningの章を見てください。

+0

こんにちはありがとうございました。 – Sap

+0

@NLP StompChickenの答えをupvoteするのを忘れないでください。 – dmcer

3

(既に上記)、OpenNLP、およびStanford NLP distributionsというポインタを求めたので、

注:Pythonがオプションの場合はNatural Language Toolkitを使用できます。

+1

+1、この段階では初心者がGATEやApache UIMAなどのソリューションのアーキテクチャの詳細に入る時間を無駄にする必要がないため、NLPプログラミングフレームワークを利用するのが最善のスタートです。 – Skarab

+0

@Skarab私は@NLPは彼が事実抽出のための注釈エンジンを作成したいと述べています。それはまさにGATEとUIMAが設計したものです。上で言及したライブラリは、字句解析と構文解析を行いますが、それでもやはり多くの作業が必要です。 – Stompchicken

+0

@StompChicken最近、私は学生のプロジェクトを案内し、参加者はapache UIMAを使用することに決めました。最初の実際の抽出パイプラインを構築するのに十分な知識を得る前に、時間がかかりました。個人的に私はUIMAを使用しています。私はそれをお勧めできますが、lingpipeまたはNatural Language Toolkitの最初の経験を得てからお勧めします。 – Skarab

関連する問題