2016-08-30 25 views
2

私はpythonとscrapyを初めて使いました。scrapeを使用した無限スクロールのデータのスクラブ

ウェブサイトからデータをスクラップしたい。

ウェブサイトはスクロールにAJAXを使用しています。

get request urlは次のとおりです。

http://www.justdial.com/functions/ajxsearch.php?national_search=0&act=pagination&city=Mumbai&search=Chemical+Dealers&where=&catid=944&psearch=&prid=&page=2&SID=&mntypgrp=0&toknbkt=&bookDate= 

私はscrapyや他のPythonライブラリ

感謝を使用することができますどのように私を助けてください。

答えて

0

このAJAXリクエストでは、現在のページのURLである正しいRefererヘッダーが必要です。リクエストを作成する際には、単にヘッダを設定することができますあなたのanswer.Iため

def parse(self, response): 
    # e.g. http://www.justdial.com/Mumbai/Dentists/ct-385543 
    my_headers = {'Referer': response.url} 
    yield Request("ajax_request_url", 
        headers=my_headers, 
        callback=self.parse_ajax) 

def parse_ajax(self, response): 
    # results should be here 
+0

おかげで試してみましょうあなたが知っている – JT28

+0

私はコードを試してみましたし、またデータをスクラップしようとするだけで、トップ10のレコードを取得しますが、私なりすべてのページからデータをスクラップしたい – JT28

+0

@ JT28あなたは 'page' URLパラメータをインクリメントするだけです。つまり、あなたが結果を得ないまでは、他のページの '&page = 2'というURLのこの部分は、おそらくあなたが最後のページを過ぎているということです。 – Granitosaurus

関連する問題