2016-09-11 10 views
1

私はスパイダーを持っていますが、動作しません。
私のスパイダーは、一部のリンクからのみ情報をスクレイプしました。 Here scraping all dataしかし、Here nothing
私は別の方法で廃止しようとしましたが、結果は変わりません。
私のミスはどこですか?ここに私のコードは、これまでのところです:ページからのすべてのデータをスキャンしません

UPDATE:= 3

import scrapy 
from NotebookDB.items import NotebookDB 

class NotebookDBSpider(scrapy.Spider): 
    name = "notebookDB" 
    allowed_domains = ["price.ua"] 
    start_urls = [ 
     "http://price.ua/catc839t14.html", 
    ] 

    def parse(self, response): 

     sites = response.xpath('//*[@id="list-grid"]//div[@class="info-wrap"]/a/@href').extract() 
    for site in sites:    
     yield scrapy.Request(site, callback=self.parse_notebook, dont_filter=True) 



    def parse_notebook(sels, response): 
     item = NotebookDB() 
     item['url'] = response.url 
     item['brand'] = response.xpath('//div[@id="page-title"]/h1//span[@itemprop="brand"]/text()').extract() 
     item['title'] = response.xpath('//div[@id="page-title"]/h1/span[1]/span[2]/text()').extract()#response.xpath('//div[@id="page-title"]/h1//span[@itemprop="model"]/text()').extract() 
     item['image'] = response.xpath('//a[@id="model-big-photo"]//@href').extract() 
     item['price'] = str(response.xpath('//div[@class="price-diapazon"]/span/text()').extract_first()).replace("\u00a0","") 
     item['properties'] = response.xpath('//div[@class="relative-wrap"]/text()').extract()[2:-2] 

     yield item 

答えて

0

問題設定DOWNLOAD_DELAYを解決するためのPythonスクリプトによって呼び出さお使いのブラウザエンジンを使用すると、開くブラウザは異なっています。

あなたが提供する必要があります。 1)クッキー 2)あなたは、ウクライナでない場合)( 3をロボット試験に合格する)いくつかの他の情報(彼らはログインする必要があれば)

あなたはすることができますセレンを試してみると、その違いを知ることができます。

+1

あなたの答えをありがとう。 – AndMar

関連する問題