Python 2.7.x標準ライブラリのモジュールのみを使用して、HTMLをテキストに変換する最良の方法を探しています。 (つまり、no BeautifulSoup
など)Python標準ライブラリのみを使用したHTMLからテキストへの変換
HTMLからテキストへの変換では、私はlynx -dump
という道徳上の同等物を意味します。実際、HTMLタグをインテリジェントに取り除き、すべてのHTMLエンティティをASCII(またはUTF8でエンコードされたユニコード)に変換するだけで十分です。
正規表現ベースの回答はありません。 (Regexesは課題に対応していません)
ありがとう!
標準的なPythonディストリビューションのモジュールのみを必要とする回答を具体的に求めています。 html2textは標準ライブラリにありません – kjo