&#xxxx;
表記を適切なユニコード文字列に変換する標準の、好ましくはPythonの方法がありますか?例えば数値参照表記をユニコード文字列に変換する
は、
מפגשי
がに変換する必要があります:文字列操作を使用しますが、このための標準ライブラリがあるのだろうか - - 非常に簡単に
מפגשי
それは行うことができます。
&#xxxx;
表記を適切なユニコード文字列に変換する標準の、好ましくはPythonの方法がありますか?例えば数値参照表記をユニコード文字列に変換する
は、
מפגשי
がに変換する必要があります:文字列操作を使用しますが、このための標準ライブラリがあるのだろうか - - 非常に簡単に
מפגשי
それは行うことができます。
>>> from HTMLParser import HTMLParser
>>> h = HTMLParser()
>>> s = "מפגשי"
>>> print h.unescape(s)
מפגשי
それはあまりにも、standard libraryの一部です。
あなたは、Python 3を使用している場合は、あなたがhtml.parser
からインポートする必要があります。
>>> from html.parser import HTMLParser
>>> h = HTMLParser()
>>> s = 'מפגשי'
>>> print(h.unescape(s))
מפגשי
ヒント:表記は[ "数値文字参照"]と呼ばれていること(https://でアン。 wikipedia.org/wiki/Numeric_character_reference)。 –
+1 @JoachimSauer、ありがとう、タイトルを更新しました。 –
関連:http://stackoverflow.com/questions/3894564/replace-numeric-character-references-in-xml-document-using-python –