0
を置き換える私はこのようになりますHTMLの文字列を解析するためにBeautifulSoup
V4を使用しています:ここでパースHTMLは、既存のHTMLタグ
<!DOCTYPE HTML>
<html xmlns="http://www.w3.org/1999/xhtml" xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office">
<head></head>
<body><p>Hello, world</p></body>
</html>
は、私はそれを解析しています方法です:
soup = BeautifulSoup(html)
ここで、html
は上記の貼り付けられたHTMLです。何らかの理由で、BSは<html>
タグを余分なメタ情報なしの標準タグに置き換えます。私はBSにこれをしないよう伝えることができますか?
のためのランダムHTMLのコメントタグに落下し続け – dennismonsewicz