2017-05-09 6 views
0

現在、私は情報を抽出したいレポートスタイルのドキュメントを扱っています。現時点では、私は文体をより小さな構成要素に分割しようとしています。個々の分類(このフレーズでどのような情報が期待されていますか)です。報告書が書かれた不正確な文法のため、標準的なconstituency parserは、文の共通根を見つけることができません。これは明らかに依存関係解析のために泣く。しかし、私は、文章の完全な解析を目的としていない選挙区のパーサーが存在するかどうかに関心がありました。最も可能性の高いサブノードを返そうとする確率論的CKYの線に沿ったもの。私は現在、Python nltkフレームワークで作業していますが、Javaソリューションもうまくいくでしょう。完全な解析を目的としていない構成員パーサーはありますか?

答えて

2

「浅い解析」、つまり「チャンク」を探しているようなサウンドです。ちょうどチャンジャーはあなたの文章中のNP、あるいはNPやVPなどを特定するかもしれません.nltkがすぐに使えると信じていませんが、自分自身を訓練するのはかなり簡単です。 nltk本のChapter 7には、さまざまな種類のチャンクを作成またはトレーニングするための詳細な手順が記載されています。チャンクは、階層構造のビットを必要とする場合でも入れ子にすることができます。

関連する問題