UIMA RUTA 2.6.0を使用していくつかのマルチワードトークンに一致させようとしています。お互いに部分的に等しいいくつかのフレーズがあります。 g。私は同じファイルに以下のエントリを持っています: "を含む"、 "含む"、 "これで"、 "に"。UIMA RUTAの単語リスト一致の問題
私の入力ファイルには次の文章があります: "1."代理人または従業員には取締役が含まれています... "。明らかに、「にはが含まれています」がありますが、他の3つ以上のエントリがワードリストに存在する場合、一致するものは見つかりません。さらに、ワードリスト内のそれらのエントリの順序付けは、一致する成功に依存しない。常に失敗する。
この問題は、単一ファイルで発生するだけでなく、それで、問題はどうすれば解決できますか? RUTAアノテータのいくつかの設定がありますか?
の開発者です。それらをすべて削除してみてください。それが動作する場合は、configパラメータdictRemoveWSで解決できます。 –
@peterこれは異常なロジックですが、動作します。どうもありがとうございました! – user8047159
はい、それは合理的ではないと聞こえますが、単語リストは空白のパターンにも適用できますので、一般的には無視できません。たぶん、デフォルトで、このパラメータをtrueに設定しているかもしれません。 –