私はPythonでBeautifulsoupを使用してこれを解析していますwebpage。Python BeautifulSoup - 無効なHTMLを解析中にfind_nextを使用
私の目標は、「AUTRE競技」の見出しの後にテーブルを取得することです:私はページを取得するために管理し
page = BeautifulSoup(requests.get(website_link,proxies=proxy).text,'html.parser')
page.find("h3",text=u'Autres comp\xe9titions').find_next("table")
を、しかし、問題は、私は検索で得た結果であるの最初のセルだけですテーブルのヘッダ:
<table class="gradient" id="tosort">
<tr>
<th class="gradient">Type</th></tr></table>
私は、問題がUnicodeにあるページから来ていることを考えた:
page = BeautifulSoup(requests.get(path,proxies=proxy).text,'html.parser')
page.find("h3",text=u'Autres comp\xe9titions'.encode('utf-8')).find_next("table")
しかし私は同じ結果を得る。
ありがとうございました。
'html.parser'が壊れているので、私はbs4ドキュメントがそれを削除するか、警告情報を追加する必要があると思います –