Python標準ライブラリのみを使用したHTMLからテキストへの変換

Python 2.7.x標準ライブラリのモジュールのみを使用して、HTMLをテキストに変換する最良の方法を探しています。（つまり、no BeautifulSoupなど）Python標準ライブラリのみを使用したHTMLからテキストへの変換

HTMLからテキストへの変換では、私はlynx -dumpという道徳上の同等物を意味します。実際、HTMLタグをインテリジェントに取り除き、すべてのHTMLエンティティをASCII（またはUTF8でエンコードされたユニコード）に変換するだけで十分です。

正規表現ベースの回答はありません。（Regexesは課題に対応していません）

ありがとう！

出典

2012-03-19 kjo

Python 2.2以降はHTMLParser moduleです。これは、最も効率的ではありませんでも最も簡単な使用が、それはあります...

そして、あなたは正しいXHTML（あるいはあなたがTidyのを通してそれを渡すことができます）を扱っている場合、あなたは

from xml.etree.ElementTree import ElementTree 
tree = ElementTree() 
tree.parse("your_document.xhtml") 
your_string = tree.tostring(method="text", encoding="utf-8")

ElementTreeはるかに良いを使用することができます

出典

2012-03-19 15:32:26 vartec

-1

html2textをご覧ください。
thread

出典

2012-03-19 21:05:21 kiran

標準的なPythonディストリビューションのモジュールのみを必要とする回答を具体的に求めています。 html2textは標準ライブラリにありません – kjo

Python標準ライブラリのみを使用したHTMLからテキストへの変換

答えて

関連する問題