2012-03-19 18 views
1

Python 2.7.x標準ライブラリのモジュールのみを使用して、HTMLをテキストに変換する最良の方法を探しています。 (つまり、no BeautifulSoupなど)Python標準ライブラリのみを使用したHTMLからテキストへの変換

HTMLからテキストへの変換では、私はlynx -dumpという道徳上の同等物を意味します。実際、HTMLタグをインテリジェントに取り除き、すべてのHTMLエンティティをASCII(またはUTF8でエンコードされたユニコード)に変換するだけで十分です。

正規表現ベースの回答はありません。 (Regexesは課題に対応していません)

ありがとう!

答えて

5

Python 2.2以降はHTMLParser moduleです。これは、最も効率的ではありませんでも最も簡単な使用が、それはあります...

そして、あなたは正しいXHTML(あるいはあなたがTidyのを通してそれを渡すことができます)を扱っている場合、あなたは

from xml.etree.ElementTree import ElementTree 
tree = ElementTree() 
tree.parse("your_document.xhtml") 
your_string = tree.tostring(method="text", encoding="utf-8") 
ElementTreeはるかに良いを使用することができます
-1

html2textをご覧ください。
thread

+0

標準的なPythonディストリビューションのモジュールのみを必要とする回答を具体的に求めています。 html2textは標準ライブラリにありません – kjo

関連する問題