私はNLPには新しく、いくつかのチュートリアル、ドキュメンテーションまたはサンプルコードの点から出発点を探しています。 自然なテキストを処理して構造化されたデータを抽出する可能性を研究するように指示されました。 たとえば、次のステートメントから高さと重さを抽出(注釈)したいとします。 「身長6フィート、体重200ポンド」または 「身長は6フィート、体重は200」など 私はUIMAを調べましたが、トレーニング機能のない自己作成のREGEX辞書のようです。 要するに、どのようなJavaフレームワークを使って訓練できるアノテーションエンジンを作成することができますか? これに関する助け(ポインタ)は大いに感謝されます。 ありがとうNLPの新機能、アノテーションに関する質問
答えて
機械学習を使用してアノテーターをトレーニングしたい場合は、おそらくGATEが最適です。そのガイドのmachine learningの章を見てください。
(既に上記)、OpenNLP、およびStanford NLP distributionsというポインタを求めたので、
注:Pythonがオプションの場合はNatural Language Toolkitを使用できます。
+1、この段階では初心者がGATEやApache UIMAなどのソリューションのアーキテクチャの詳細に入る時間を無駄にする必要がないため、NLPプログラミングフレームワークを利用するのが最善のスタートです。 – Skarab
@Skarab私は@NLPは彼が事実抽出のための注釈エンジンを作成したいと述べています。それはまさにGATEとUIMAが設計したものです。上で言及したライブラリは、字句解析と構文解析を行いますが、それでもやはり多くの作業が必要です。 – Stompchicken
@StompChicken最近、私は学生のプロジェクトを案内し、参加者はapache UIMAを使用することに決めました。最初の実際の抽出パイプラインを構築するのに十分な知識を得る前に、時間がかかりました。個人的に私はUIMAを使用しています。私はそれをお勧めできますが、lingpipeまたはNatural Language Toolkitの最初の経験を得てからお勧めします。 – Skarab
あなたがここでそれを試すことができます: http://deagol.cs.illinois.edu:8080
- 1. 機能に関する質問
- 2. Facebookのメッセージ機能とそのスクロールバーに関する質問
- 3. asp.netのボタンとそのコマンド機能に関する質問
- 4. WordPressのサイトアイコンの機能と出力に関する質問
- 5. sqlサービスブローカの機能に関する質問
- 6. 再帰的形質機能の寿命に関する問題
- 7. Java Eclipseエクスポート機能に関する質問
- 8. Djangoテスト機関の質問
- 9. ジェネリック機能質問C#
- 10. 機器に関するメモリリーク検出に関する質問
- 11. mvcの新機能、分割コードの質問
- 12. レポートQ2 2011の新しいキャッシング機能の質問
- 13. ヘッダーとリンカーエラーに関する問題(C++の新機能)
- 14. JavaScriptの呼び出し機能に関する質問はありますか?
- 15. 春のアノテーション基本的な質問
- 16. Perl:基本的な質問、関数の機能
- 17. VueJS更新機能に関する問題
- 18. タブバーコントローラに関する質問
- 19. プロセスマップに関する質問
- 20. loadNibNamedに関する質問:
- 21. Erlangに関する質問
- 22. インデックスに関する質問
- 23. BSplineに関する質問
- 24. reallocに関する質問
- 25. インテントサービスに関する質問
- 26. データベースに関する質問
- 27. dbms_stats.gather_table_statsに関する質問
- 28. ハイバネートマッピングに関する質問
- 29. APIに関する質問
- 30. リフレクションパッケージに関する質問
をところでここで私はあなたの入力テキストを参照出力されます。情報抽出技術の芸術の始まりについて学ぶために、私はSunita Sarawagiによる最近の調査を読むことを勧めます - http://osm.cs.byu.edu/CS652s09/papers/Sarawagi.ieSurvey.pdf – Skarab