SyntaxNetで注釈文字を無視する方法は？

syntaxnetでテキストを解析するときに注釈文字を無視したい。SyntaxNetで注釈文字を無視する方法は？

たとえば、以下の場合、<X>と</X>というアノテーション文字は無視します。

<PERSON>Michael Jordan</PERSON> is a professor at <LOC>Berkeley</LOC>.

したがって、次の出力を期待しています。

_ <PERSON> _  ... 
1 Michael  _  ... 
2 Jordan  _  ... 
_ </PERSON> _  ... 
3 is   _  ... 
...

SyntaxNetには、この種の機能がありますか？

出典

2016-08-30 mayo

いいえ、SyntaxNetには、xmlタグを操作する特定の機能はありません。

import xml.etree.ElementTree as ET 
tree = ET.fromstring(
    "<DOC><PERSON>Michael Jordan</PERSON> is a " 
    "professor at <LOC>Berkeley</LOC>.</DOC>") 
notags = ET.tostring(tree, encoding='utf8', method='text') 
print(notags)

もPython strip XML tags from documentを参照してください。あなたのような何かをPythonで簡単にデータを前処理することができますが。

出典

2016-08-31 20:12:56 calberti

ありがとうございました。しかし、私は、テキストからXMLタグを削除すると、SyntaxNet outpustとXMLタグをマージすることは難しいと思います。 SyntaxNet出力とXMLアノテーション情報を別の機械学習の機能に使用したいと考えています。 – mayo

SyntaxNetで注釈文字を無視する方法は？

答えて

関連する問題