私のスクリーニングパーサーが呼び出されないのはなぜですか？

私はscrapyを使用してサイト全体をクロールしていますが、パーサは決して呼び出されません。私はこれを永遠に見てきましたが、ほとんど変化はしませんでしたが、うまくいきませんでした。たぶん新鮮な目が必要かもしれません。ここに私のコードはあります：私のスクリーニングパーサーが呼び出されないのはなぜですか？

import scrapy 
from scrapy.spiders import CrawlSpider, Rule 
from scrapy.linkextractors import LinkExtractor 

class FirstSpider(CrawlSpider): 
    name = 'firstSpider' 
    allowed_domains = ['http://example.com'] 
    start_urls = ['http://example.com'] 

    rules = (Rule(LinkExtractor(), callback='parse_page', follow=True),) 

    def parse_page(self, response): 
     print('made it to the parser...')

私はログに何も間違いがありません。要求はexample.comから200応答を取得します。フィルタリングされたオフサイト要求は 'www.iana.org'に送信されます。

私はUbuntu 16.04でpython3を使用しています。

ご協力いただきありがとうございます。

出典

2017-09-14 Jake 1986

文字列としての機能を持っていることになって、あなたの 'callback'引数があるべきである

allowed_domains = ['http://example.com']

下回っているのですか？ – ryugie

これはScrapyのドキュメントの文字列なので、私はそう信じています。 'NameError：name 'parse_page'が定義されていません。 –

問題は、それは、ドメイン名ではなくURL

allowed_domains = ['example.com']

出典

2017-09-14 21:36:59

私のスクリーニングパーサーが呼び出されないのはなぜですか？

答えて

関連する問題