2016-08-26 4 views
0

文書の分類にOpenNLPを使用し、訓練されたサンプルから正規表現を使用して名前を抽出することができました。OpenNLPを使用して文中の位置に基づいてコンテンツを検出する

ポジションに基づいて名前(またはより一般的には、件名)を抽出することも可能かどうかは疑問でしたか?

など。 Travel to <START:location> New York </START>のように先験的に分かっている具体的な名前で訓練するのではなく、具体的な例を提示するのではなく、指定された位置に現れるものがエンティティである可能性があるとOpenNLPが判断することを望みます。そうすれば、可能な限りそれぞれのオプションを提供する必要はありませんが(これは私の場合は不可能です)、可能な周囲の文に対してのみ提供します。

答えて

1

これはコンテキストベースの学習であり、Opennlpはすでにそうしています。良い結果を得るためには、適切でより多くの例を挙げてトレーニングする必要があります。例えば

Professor Xが私たちの文章であった場合に、OpennlpはXはそれの教授のインフロントのない文に存在しているとき、それは名前として出力Xを与えていない可能性があり、一方、model.binはあなたの名前として出力Xを与える訓練を受けました。

その文書によれば、訓練データの15000センテンスを与えればよい結果が期待できます。

+0

問題は、私の例のように、文章が常によく似ているということです。もし私が15000の「旅行への旅」の例を考え出すなら、私は後になって一般的な被写体の検出をもう必要としないでしょう。 – digitalbreed

+0

トレーニングデータに xyz への旅行のような文章があれば、モデルはn-gramsのように学べます!あなたは良い結果を期待することができます – Nuwanda

関連する問題