2012-02-27 5 views
0

が、私はこのような何かをしUIMAツールチェーンを持っていると仮定しますUIMA:プラグ&differenチームのチェーンのためのアノテーターを再生

トークン化 - > POSタギング - にカスタムタグを使用する> - >私のカスタムタグ/注釈を割り当てますより多くのタグを割り当てる - >それ以上の処理。

POSタグを付けた直後に、2つのカスタム品目の間にエンティティ認識(POSタグを使用しますが、あまり必要ない)を使用することは可能でしょうか?

私はこのタイプのシステムに起因する複雑さを見ることができるので、この質問をしています。特に、最も困難なケースは、カスタマイズされたものの間、またはその直後に、第三者のERアノテータをプラグインすることです。サードパーティの注釈者は、カスタムタグがそこに存在するとは期待しません。

ただし、注釈を見たり注釈を変更したりすることなく注釈を通過させるだけの追加の注釈があります。ですから、原理的にはこれが可能だと思います。私はUIMAがこれをサポートしているのかどうか分かりませんし、どこにでも厳密な入力をして独自のフルチェーンを作成しているのです。

これは箱の外にできない場合は、我々は現在、他の注釈がある場合、POSタグがから独立して利用可能な場合、彼らはどこにでも差し込むことができるようにカスタムアノテーターを書くことができます。私。注釈の作成者は、必要な注釈、追加する注釈、存在してもいなくてもよい任意の数の注釈が存在する可能性があることに注意しており、それらを気にせずに渡すだけです。

答えて

3

サードパーティのアノテーターは、カスタムタグがそこに存在するとは考えていません。

私が正しく理解していれば、あなたのカスタム注釈が右、サードパーティのNERと衝突する可能性があることを懸念していますか?あなたのコードが正確にと同じ注釈を追加しない限り、それはできません。

これはUIMAの強みです:すべての分析エンジン(AE)は他とは独立しており、CASで渡された注釈のみが対象です。たとえば、タイプmy.namespace.Tokenの注釈が必要なAEがあるとします。 CASに存在する限り、AEがこれらの注釈を作成したかどうかは関係ありません。

この柔軟性のために支払う価格は、(開発者として)各AEに必要な注釈が存在することを確認する必要があることです。たとえば、AEがタイプmy.namespace.Sentenceの注釈を期待しているが、存在しない注釈がある場合、このAEは処理を実行できません。

+0

私はmy.namespace.Tokenを持っていて、別のアノテーターがother.namespace.Tokenを必要とすると仮定します。これは基本的に同じですが、my.namespace.Tokenには1つの追加属性があります。 1つを別のものに変換することは可能ですか(AEを追加することなく、タイプシステムのXMLマッピングで可能です)? –

+0

おそらく、それを行うことができる既存のAEがあります(どこを覚えていないか...)。または、ConfigurableFeatureExtractor(http://uima.apache.org/d/uima-addons-current/ConfigurableFeatureExtractor/CFE_UG.html)を使用することもできます。通常、私はちょうどAEを書く: - / – Renaud

関連する問題