2017-05-04 3 views
0

を置き換える私はこのようになりますHTMLの文字列を解析するためにBeautifulSoup V4を使用しています:ここでパースHTMLは、既存のHTMLタグ

<!DOCTYPE HTML> 
<html xmlns="http://www.w3.org/1999/xhtml" xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office"> 
<head></head> 
<body><p>Hello, world</p></body> 
</html> 

は、私はそれを解析しています方法です:

soup = BeautifulSoup(html) 

ここで、htmlは上記の貼り付けられたHTMLです。何らかの理由で、BSは<html>タグを余分なメタ情報なしの標準タグに置き換えます。私はBSにこれをしないよう伝えることができますか?

答えて

0

これは、HTMLパーサーとしてhtml5libをBSに渡すことでわかりました。しかし、今、それはこれがBeautifulSoupコメントタイプとして `<!DOCTYPE`を扱うという事実によるものであるDOCTYPE

<!--<!DOCTYPE HTML--> 
+0

のためのランダムHTMLのコメントタグに落下し続け – dennismonsewicz