私はAjaxページを持っている大規模なオンラインマーケットプレイスのウェブサイトをスクラップしたいと思います。私はCentos VPSに設定して、断続的にサイトのデータを取得して、私の製品提供戦略を有効にしたいと思います。Python Scrapy:Seleniumを使用する方が良いでしょうか、XHRリクエストをシミュレートするだけですか?
私はpythonとscrapyとこの場合スクレイピングに新しいです。私はいくつかのサイトを読んで、AJAxコンポーネントを使ってページをスクラップするようにしてきました。
方法1.セレンと相互作用する治療のため。私はこれが動作するかどうかわからない私のvpsに全体のセットアップをインストールしています。セレンにはGUIブラウザが必要ですか?しかし、これは素晴らしい設定であり、Webポータルの将来の変更が起こった場合に備えて、迅速な変更が可能になります。
方法2. XHR要求をシミュレートするための治療用。 XHRの呼び出しについていくつかの勉強があります。ただし、処理が高速になりますが、今後のサイトの変更があれば調整するまでに時間がかかります。
助けが必要です。
XHRリクエストは他のリクエストと同じです。また、レイアウトはXHRレスポンスよりも変化する可能性があります。そう、はい、クロムにページを読み込み、どのURLにデータがあるのか把握するためにネットワークタブを開き、それだけを使用します。 – pguardiario