2017-04-08 7 views
0

を要求し、私はこのページ全体をこすりしようとしているが、それだけの一部を取得しています:スクレイプ全体スクロール負荷のページを具体的に

http://store.nike.com/us/en_us/pw/mens-shoes/7puZoi3?ipp=120

私が使用している場合:

r= requests.get('http://store.nike.com/us/en_us/pw/mens-shoes/7puZoi3?ipp=120') 

以上の項目は、あなたが下向き

スクロールすると、私はこのようなPyQtはでいくつかのソリューションがあります知って読み込むので、それだけで、ページの「目に見える」部分を取得します:

Repeatedly scroll to the bottom of a page using PyQt QWebKit

が、すべての項目が読み込まれるまで継続的にWebページの一番下までスクロールPythonの要求を持ってする方法はありますか?

答えて

1

ブラウザの開発コンソール(ChromeのF12 - ネットワーク)でページネットワークのアクティビティを監視し、スクロールダウン時にページが行うリクエストを確認し、そのデータを使用してrequestsでリクエストを再現することができます。または、seleniumを使用して、ページが終了するまでスクロールしてHTMLを保存するようにブラウザをプログラムで制御することができます。

は私が

Request URL:http://store.nike.com/html-services/gridwallData?country=US&lang_locale=en_US&gridwallPath=mens-shoes/7puZoi3&pn=3 
Request Method:GET 
Status Code:200 OK 
Remote Address:87.245.221.98:80 

リクエストヘッダ

Provisional headers are shown 
Accept:application/json, text/javascript, */*; q=0.01 
Referer:http://store.nike.com/us/en_us/pw/mens-shoes/7puZoi3?ipp=120 
User-Agent:Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36 
X-NewRelic-ID:VQYGVF5SCBAJVlFaAQIH 
X-Requested-With:XMLHttpRequest 

権要求を発見したクエリパラメータpnは、現在の "サブページ" を意味らしいと思います。しかし、あなたはまだ応答を正しく理解する必要があります。

関連する問題