scrapeを使用した無限スクロールのデータのスクラブ

私はpythonとscrapyを初めて使いました。scrapeを使用した無限スクロールのデータのスクラブ

ウェブサイトからデータをスクラップしたい。

ウェブサイトはスクロールにAJAXを使用しています。

get request urlは次のとおりです。

http://www.justdial.com/functions/ajxsearch.php?national_search=0&act=pagination&city=Mumbai&search=Chemical+Dealers&where=&catid=944&psearch=&prid=&page=2&SID=&mntypgrp=0&toknbkt=&bookDate=

私はscrapyや他のPythonライブラリ

感謝を使用することができますどのように私を助けてください。

出典

2016-08-30 JT28

このAJAXリクエストでは、現在のページのURLである正しいRefererヘッダーが必要です。リクエストを作成する際には、単にヘッダを設定することができますあなたのanswer.Iため

def parse(self, response): 
    # e.g. http://www.justdial.com/Mumbai/Dentists/ct-385543 
    my_headers = {'Referer': response.url} 
    yield Request("ajax_request_url", 
        headers=my_headers, 
        callback=self.parse_ajax) 

def parse_ajax(self, response): 
    # results should be here

出典

2016-08-30 07:54:53 Granitosaurus

おかげで試してみましょうあなたが知っている – JT28

私はコードを試してみましたし、またデータをスクラップしようとするだけで、トップ10のレコードを取得しますが、私なりすべてのページからデータをスクラップしたい – JT28

@ JT28あなたは 'page' URLパラメータをインクリメントするだけです。つまり、あなたが結果を得ないまでは、他のページの '＆page = 2'というURLのこの部分は、おそらくあなたが最後のページを過ぎているということです。 – Granitosaurus

scrapeを使用した無限スクロールのデータのスクラブ

答えて

関連する問題