Pythonを使用してデータを非表示にしてHTMLからタグを抽出する

異なるWebページからスクレイピングを学習しようとしています。要素を検査すると、コンテンツが表示されますが、元のページには、このデータは表示されませんが、これは空の結果を返します Pythonを使用してデータを非表示にしてHTMLからタグを抽出する

url = "https://www.bc.edu/bc-web/schools/mcas/departments/art/people/#par-bc_tabbed_content-tab-0" 
page = requests.get(url) 
content = page.content 
tree = html.fromstring(page.content) 
soup = BeautifulSoup(content,"html.parser") 
p = soup.find_all('div',{"id":'e6bde0e9_358d_4966_8fde_be96e9dcad0b'}) 
print p

次のように私は、タブを含むページからデータをこすりしようとしました。どのようにコンテンツを抽出するかに関するあらゆる指針。

出典

2017-08-22 Joe

これはjavascriptのレンダリングによるものです。つまり、必要なデータには元のリクエストが含まれていませんが、そのレスポンスのjavascriptによって生成されたリクエストです。

元のリクエストによって生成されたすべてのリクエストを確認するには、Chromeでdeveloper toolsのようなものを使用する必要があります。

この具体的なケースでは、必要な実際のリクエストはsiteになり、必要な情報が得られます。

出典

2017-08-22 16:14:53 eLRuLL

サイトには「個別アイテム」が含まれていますが、そこから抽出された場所を教えてください。私は開発ツールを使用して見つけることができませんでした。 – Joe

私はそれを得た！ネットワークで検索しなければならないことはわかりませんでした。 – Joe

Pythonを使用してデータを非表示にしてHTMLからタグを抽出する

答えて

関連する問題