HTMLスクレイピング用にBeautifulSoupをお勧めします。残念ながら、あなたが"some_string".decode('html_entities')
を行うことができることなど、標準codecsモジュールは、このためのコーデックが含まれている場合(それはいいだろう
>>> from BeautifulSoup import BeautifulSoup
>>> html = "<html>ÄÄRITALO!</html>"
>>> soup = BeautifulSoup(html, convertEntities=BeautifulSoup.HTML_ENTITIES)
>>> print soup.contents[0].string
ÄÄRITALO!
しかし:あなたもそうのように、対応するUnicode文字にHTMLエンティティを変換することを指示する必要がありますそれは)
EDITしません:! 別の解決策:他のものの間 Pythonの開発者のFredrik Lundhに(のElementTreeの著者は、)、小数点、六角と名前付きエンティティで動作する彼のウェブサイト、上のa function to unsecape HTML entities(BeautifulSoup意志を持っていますヘックスでは動作しません)。