私はRUTAを使用しており、同じエンティティを抽出するための多くの異なるルールを書いています。たとえば、私は "トイレットペーパー工場"を抽出します。現時点で私の規則は、トイレットペーパー工場,製紙工場と工場になります。しかし、私は最も長い試合にしか興味がありません。UIMA Ruta最長一致に注釈を付けるだけ
私は、最小限の例を作成しました:
DECLARE Test;
(CW CW) {-> CREATE(Test)};
(CW CW CW) {-> CREATE(Test)};
そして、私のテスト - 文字列:
lower lower Upper Upper Upper lower Upper
上記のルールが上位上位とアッパーアッパーアッパーと一致します。しかし、この場合、私は最後のルールの結果にのみ興味があります。
短いマッチを削除することはできますか?
のデベロッパー:) - 最初の解決のために必要な特別なRUTAバージョンはありますか?私は2.3.1を使用しています 2番目の解決策は動作しますが、それは遅いと言いました。 – PascalTurbo
最初の解決策として、UIMA Ruta 2.5.0が必要です。このルールは2.3.1と同様に書き換えることができます。たとえば、BLOCKとUNMARKのタイプを使用します –