2016-08-30 3 views
0

syntaxnetでテキストを解析するときに注釈文字を無視したい。SyntaxNetで注釈文字を無視する方法は?

たとえば、以下の場合、<X></X>というアノテーション文字は無視します。

<PERSON>Michael Jordan</PERSON> is a professor at <LOC>Berkeley</LOC>. 

したがって、次の出力を期待しています。

_ <PERSON> _  ... 
1 Michael  _  ... 
2 Jordan  _  ... 
_ </PERSON> _  ... 
3 is   _  ... 
... 

SyntaxNetには、この種の機能がありますか?

答えて

0

いいえ、SyntaxNetには、xmlタグを操作する特定の機能はありません。

import xml.etree.ElementTree as ET 
tree = ET.fromstring(
    "<DOC><PERSON>Michael Jordan</PERSON> is a " 
    "professor at <LOC>Berkeley</LOC>.</DOC>") 
notags = ET.tostring(tree, encoding='utf8', method='text') 
print(notags) 

Python strip XML tags from documentを参照してください。あなたのような何かをPythonで簡単にデータを前処理することができますが。

+0

ありがとうございました。しかし、私は、テキストからXMLタグを削除すると、SyntaxNet outpustとXMLタグをマージすることは難しいと思います。 SyntaxNet出力とXMLアノテーション情報を別の機械学習の機能に使用したいと考えています。 – mayo

関連する問題