2013-06-10 23 views
6

&#xxxx;表記を適切なユニコード文字列に変換する標準の、好ましくはPythonの方法がありますか?例えば数値参照表記をユニコード文字列に変換する

は、

מפגשי 

がに変換する必要があります:文字列操作を使用しますが、このための標準ライブラリがあるのだろうか - - 非常に簡単に

מפגשי 

それは行うことができます。

+0

ヒント:表記は[ "数値文字参照"]と呼ばれていること(https://でアン。 wikipedia.org/wiki/Numeric_character_reference)。 –

+0

+1 @JoachimSauer、ありがとう、タイトルを更新しました。 –

+0

関連:http://stackoverflow.com/questions/3894564/replace-numeric-character-references-in-xml-document-using-python –

答えて

9

使用HTMLParser.HTMLParser()

>>> from HTMLParser import HTMLParser 
>>> h = HTMLParser() 
>>> s = "מפגשי" 
>>> print h.unescape(s) 
מפגשי 

それはあまりにも、standard libraryの一部です。


あなたは、Python 3を使用している場合は、あなたがhtml.parserからインポートする必要があります。

>>> from html.parser import HTMLParser 
>>> h = HTMLParser() 
>>> s = 'מפגשי' 
>>> print(h.unescape(s)) 
מפגשי 
+0

'unescape'が内部的で文書化されていないようです。 「公式」な方法はありますか? – georg

+0

@ thg435私には分かりませんが、ごめんなさい – TerryA

+0

私はそれを見つけませんでした。まあ、これはちょっと吸いますね。 – georg

関連する問題