2017-05-22 12 views
2

UIMA RUTA 2.6.0を使用していくつかのマルチワードトークンに一致させようとしています。お互いに部分的に等しいいくつかのフレーズがあります。 g。私は同じファイルに以下のエントリを持っています: "を含む"、 "含む"、 "これで"、 "に"。UIMA RUTAの単語リスト一致の問題

私の入力ファイルには次の文章があります: "1."代理人または従業員には取締役が含まれています... "。明らかに、「にはが含まれています」がありますが、他の3つ以上のエントリがワードリストに存在する場合、一致するものは見つかりません。さらに、ワードリスト内のそれらのエントリの順序付けは、一致する成功に依存しない。常に失敗する。

この問題は、単一ファイルで発生するだけでなく、それで、問題はどうすれば解決できますか? RUTAアノテータのいくつかの設定がありますか?

+0

の開発者です。それらをすべて削除してみてください。それが動作する場合は、configパラメータdictRemoveWSで解決できます。 –

+0

@peterこれは異常なロジックですが、動作します。どうもありがとうございました! – user8047159

+0

はい、それは合理的ではないと聞こえますが、単語リストは空白のパターンにも適用できますので、一般的には無視できません。たぶん、デフォルトで、このパラメータをtrueに設定しているかもしれません。 –

答えて

1

単語リストの空白文字は、不一致につながる可能性があります。空白が重要でない場合は、設定パラメータ 'dictRemoveWS'をtrueに設定します。

免責事項:私はこれが最も可能性の高い単語リスト内の空白によって引き起こされるUIMAルタ

+0

スペースが重要で、それをcsvに入れると、上記の問題は同じかどうかは同じですか? – Prabhav