2016-04-29 8 views
0

私は、ナショナルギャラリーオブアートのオンラインカタログから情報を取得しようとしています。カタログの構造上、エントリからエントリへのリンクを抽出して追跡することはできません。幸い、コレクション内の各オブジェクトには予測可能なURLがあります。スパイダーが開始URLを生成してコレクションをナビゲートするようにします。開始URLを生成するときに競合が発生する

スレッドをthisから実装することで問題を解決しようとしました。残念ながら、これは私のクモの別の部分を破るようです。エラーログは、私のURLが正常に生成されているが、正しく処理されていないことを示しています。私が正しくログを解釈しているとすれば、私が必要とするURLとスパイダーのルールセクションを生成するためのstart_urlsの再定義には矛盾があります。物事が今立つと、クモはまた私がそれをクロールするように要求するページの数を尊重しません。

あなたは私のスパイダーと典型的なエラーを以下で見つけるでしょう。私はあなたが提供できるどんな助けにも感謝します。

スパイダー:

URL = "http://www.nga.gov/content/ngaweb/Collection/art-object-page.%d" 
starting_number = 1312 
number_of_pages = 10 
class NGASpider(CrawlSpider): 
    name = 'ngamedallions' 
    allowed_domains = ['nga.gov'] 
    start_urls = [URL % starting_number] 
    rules = (
      Rule(LinkExtractor(allow=('art-object-page.*','objects/*')),callback='parse_CatalogRecord', 
follow=True)) 

    def __init__(self): 
     self.page_number = starting_number 

    def start_requests(self): 
     for i in range (self.page_number, number_of_pages, -1): 
      yield Request(url = URL % i + ".html" , callback=self.parse) 


    def parse_CatalogRecord(self, response): 
     CatalogRecord = ItemLoader(item=NgamedallionsItem(), response=response) 
     CatalogRecord.default_output_processor = TakeFirst() 
     CatalogRecord.image_urls_out = scrapy.loader.processors.Identity() 
     keywords = "medal|medallion" 
     r = re.compile('.*(%s).*' % keywords, re.IGNORECASE|re.MULTILINE|re.UNICODE) 
     if r.search(response.body_as_unicode()): 

      CatalogRecord.add_xpath('title', './/dl[@class="artwork-details"]/dt[@class="title"]/text()') 
      CatalogRecord.add_xpath('accession', './/dd[@class="accession"]/text()') 
      CatalogRecord.add_xpath('inscription', './/div[@id="inscription"]/p/text()') 
      CatalogRecord.add_xpath('image_urls', './/img[@class="mainImg"]/@src') 

      return CatalogRecord.load_item() 

典型的なエラー:

2016-04-29 15:35:00 [scrapy] ERROR: Spider error processing <GET http://www.nga.gov/content/ngaweb/Collection/art-object-page.1178.html> (referer: None) 
Traceback (most recent call last): 
    File "/usr/lib/pymodules/python2.7/scrapy/utils/defer.py", line 102, in iter_errback 
yield next(it) 
    File "/usr/lib/pymodules/python2.7/scrapy/spidermiddlewares/offsite.py", line 28, in process_spider_output 
    for x in result: 
    File "/usr/lib/pymodules/python2.7/scrapy/spidermiddlewares/referer.py", line 22, in <genexpr> 
    return (_set_referer(r) for r in result or()) 
    File "/usr/lib/pymodules/python2.7/scrapy/spidermiddlewares/urllength.py", line 37, in <genexpr> 
    return (r for r in result or() if _filter(r)) 
    File "/usr/lib/pymodules/python2.7/scrapy/spidermiddlewares/depth.py", line 54, in <genexpr> 
    return (r for r in result or() if _filter(r)) 
    File "/usr/lib/pymodules/python2.7/scrapy/spiders/crawl.py", line 73, in _parse_response 
    for request_or_item in self._requests_to_follow(response): 
    File "/usr/lib/pymodules/python2.7/scrapy/spiders/crawl.py", line 51, in _requests_to_follow 
    for n, rule in enumerate(self._rules): 
AttributeError: 'NGASpider' object has no attribute '_rules' 

単にとstart_urlsを取り除くeLRuLLのソリューションにResonseで更新

は私のクモが私の生成されたURLをクロールすることができます。しかし、 'def parse_CatalogRecord(self、response)'が適用されないようにも思えます。私が今スパイダーを実行すると、生成されたURLの範囲外のページしか擦れません。私の修正スパイダーとログの出力は以下の通りです。

スパイダー:

URL = "http://www.nga.gov/content/ngaweb/Collection/art-object-page.%d" 
starting_number = 1312 
number_of_pages = 1311 
class NGASpider(CrawlSpider): 
    name = 'ngamedallions' 
    allowed_domains = ['nga.gov'] 
    rules = (
      Rule(LinkExtractor(allow=('art-object-page.*','objects/*')),callback='parse_CatalogRecord', 
follow=True)) 

    def start_requests(self): 
     self.page_number = starting_number 
     for i in range (self.page_number, number_of_pages, -1): 
      yield Request(url = URL % i + ".html" , callback=self.parse) 


    def parse_CatalogRecord(self, response): 
     CatalogRecord = ItemLoader(item=NgamedallionsItem(), response=response) 
     CatalogRecord.default_output_processor = TakeFirst() 
     CatalogRecord.image_urls_out = scrapy.loader.processors.Identity() 
     keywords = "medal|medallion" 
     r = re.compile('.*(%s).*' % keywords, re.IGNORECASE|re.MULTILINE|re.UNICODE) 
     if r.search(response.body_as_unicode()): 

      CatalogRecord.add_xpath('title', './/dl[@class="artwork-details"]/dt[@class="title"]/text()') 
      CatalogRecord.add_xpath('accession', './/dd[@class="accession"]/text()') 
      CatalogRecord.add_xpath('inscription', './/div[@id="inscription"]/p/text()') 
      CatalogRecord.add_xpath('image_urls', './/img[@class="mainImg"]/@src') 

      return CatalogRecord.load_item() 

ログ:あなたがsuperを呼び出すためにならない場合

2016-05-02 15:50:02 [scrapy] INFO: Scrapy 1.0.5.post4+g4b324a8 started (bot: ngamedallions) 
2016-05-02 15:50:02 [scrapy] INFO: Optional features available: ssl, http11 
2016-05-02 15:50:02 [scrapy] INFO: Overridden settings: {'NEWSPIDER_MODULE': 'ngamedallions.spiders', 'FEED_URI': 'items.json', 'SPIDER_MODULES': ['ngamedallions.spiders'], 'BOT_NAME': 'ngamedallions', 'FEED_FORMAT': 'json', 'DOWNLOAD_DELAY': 3} 
2016-05-02 15:50:02 [scrapy] INFO: Enabled extensions: CloseSpider, FeedExporter, TelnetConsole, LogStats, CoreStats, SpiderState 
2016-05-02 15:50:02 [scrapy] INFO: Enabled downloader middlewares: HttpAuthMiddleware, DownloadTimeoutMiddleware, UserAgentMiddleware, RetryMiddleware, DefaultHeadersMiddleware, MetaRefreshMiddleware, HttpCompressionMiddleware, RedirectMiddleware, CookiesMiddleware, ChunkedTransferMiddleware, DownloaderStats 
2016-05-02 15:50:02 [scrapy] INFO: Enabled spider middlewares: HttpErrorMiddleware, OffsiteMiddleware, RefererMiddleware, UrlLengthMiddleware, DepthMiddleware 
2016-05-02 15:50:02 [scrapy] INFO: Enabled item pipelines: ImagesPipeline 
2016-05-02 15:50:02 [scrapy] INFO: Spider opened 
2016-05-02 15:50:02 [scrapy] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min) 
2016-05-02 15:50:02 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6023 
2016-05-02 15:50:02 [scrapy] DEBUG: Crawled (200) <GET http://www.nga.gov/content/ngaweb/Collection/art-object-page.1312.html> (referer: None) 
2016-05-02 15:50:02 [scrapy] DEBUG: Filtered duplicate request: <GET http://www.nga.gov/content/ngaweb/Collection/art-object-page.1312.html> - no more duplicates will be shown (see DUPEFILTER_DEBUG to show all duplicates) 
2016-05-02 15:50:05 [scrapy] DEBUG: Crawled (200) <GET http://www.nga.gov/content/ngaweb/Collection/art-object-page.1313.html> (referer: http://www.nga.gov/content/ngaweb/Collection/art-object-page.1312.html) 
2016-05-02 15:50:05 [scrapy] DEBUG: File (uptodate): Downloaded image from <GET http://media.nga.gov/public/objects/1/3/1/3/1313-primary-0-440x400.jpg> referred in <None> 
2016-05-02 15:50:05 [scrapy] DEBUG: Scraped from <200 http://www.nga.gov/content/ngaweb/Collection/art-object-page.1313.html> 
{'accession': u'1942.9.163.b', 
'image_urls': [u'http://media.nga.gov/public/objects/1/3/1/3/1313-primary-0-440x400.jpg'], 
'images': [{'checksum': '9d5f2e30230aeec1582ca087bcde6bfa', 
     'path': 'full/3a692347183d26ffefe9ba0af80b0b6bf247fae5.jpg', 
     'url': 'http://media.nga.gov/public/objects/1/3/1/3/1313-primary-0-440x400.jpg'}], 
'inscription': u'around top circumference: TRINACRIA IANI; upper center: PELORVS ; across center: PA LI; across bottom: BELAVRA', 
'title': u'House between Two Hills [reverse]'} 
2016-05-02 15:50:05 [scrapy] INFO: Closing spider (finished) 
2016-05-02 15:50:05 [scrapy] INFO: Stored json feed (1 items) in: items.json 
2016-05-02 15:50:05 [scrapy] INFO: Dumping Scrapy stats: 
{'downloader/request_bytes': 631, 
'downloader/request_count': 2, 
'downloader/request_method_count/GET': 2, 
'downloader/response_bytes': 26324, 
'downloader/response_count': 2, 
'downloader/response_status_count/200': 2, 
'dupefilter/filtered': 3, 
'file_count': 1, 
'file_status_count/uptodate': 1, 
'finish_reason': 'finished', 
'finish_time': datetime.datetime(2016, 5, 2, 19, 50, 5, 810570), 
'item_scraped_count': 1, 
'log_count/DEBUG': 6, 
'log_count/INFO': 8, 
'request_depth_max': 2, 
'response_received_count': 2, 
'scheduler/dequeued': 2, 
'scheduler/dequeued/memory': 2, 
'scheduler/enqueued': 2, 
'scheduler/enqueued/memory': 2, 
'start_time': datetime.datetime(2016, 5, 2, 19, 50, 2, 455508)} 
2016-05-02 15:50:05 [scrapy] INFO: Spider closed (finished) 

答えて

1

__init__メソッドをオーバーライドしません。

start_requestsを使用する場合、スパイダーが動作するように実際にstart_urlsを宣言する必要はありません。

メソッドを削除するだけで、start_urlsは不要です。私はあなたの考える

start_urls = [URL % i + '.html' for i in range (starting_number, number_of_pages, -1)] 

start_requests

+0

を削除:CrawlSpiderstart_urls属性を必要とするよう

UPDATE

[OK]を私のミスは、これだけではなく、start_requests方法を使用することを作成し、検索します解決策は、スパイダーが生成されたURLのすべてをクロールできる限りは機能しますが、副次的な問題も発生します。スパイダーは、生成されたURLをクロールすると報告しますが、セカンダリページへのリンクをたどっていない限り、解析メソッドは適用されません。 – Tric

+0

更新された回答を確認してください – eLRuLL

+0

それは完璧に動作します、ありがとう! – Tric

関連する問題