見て、この例ではHTMLエンティティを削除します。BeautifulSoup(BS4)XMLパーサーは
# xml parser
bs4.BeautifulSoup('<price>£4</price>', 'xml')
# prints:
<?xml version="1.0" encoding="utf-8"?>
<price>4</price>
# html (lxml) parser
bs4.BeautifulSoup('<span>£4</span>', 'lxml')
# prints:
<html><body><span>£4</span></body></html>
お知らせ£
看板。なぜXMLパーサーがそれを削除するのですか?それを出力に持たせるにはどうすればよいですか?ドキュメントにはlxml
パーサー(たとえば<link>
)によって間違って解析されたペアのタグが含まれているため、xml
の解析が必要です。
xmlパーサーを使用する必要がありますか? –