2017-09-14 10 views
0

私はscrapyを使用してサイト全体をクロールしていますが、パーサは決して呼び出されません。私はこれを永遠に見てきましたが、ほとんど変化はしませんでしたが、うまくいきませんでした。たぶん新鮮な目が必要かもしれません。ここに私のコードはあります:私のスクリーニングパーサーが呼び出されないのはなぜですか?

import scrapy 
from scrapy.spiders import CrawlSpider, Rule 
from scrapy.linkextractors import LinkExtractor 

class FirstSpider(CrawlSpider): 
    name = 'firstSpider' 
    allowed_domains = ['http://example.com'] 
    start_urls = ['http://example.com'] 

    rules = (Rule(LinkExtractor(), callback='parse_page', follow=True),) 

    def parse_page(self, response): 
     print('made it to the parser...') 

私はログに何も間違いがありません。要求はexample.comから200応答を取得します。フィルタリングされたオフサイト要求は 'www.iana.org'に送信されます。

私はUbuntu 16.04でpython3を使用しています。

ご協力いただきありがとうございます。

+0

文字列としての機能を持っていることになって、あなたの 'callback'引数があるべきである

allowed_domains = ['http://example.com'] 

下回っているのですか? – ryugie

+0

これはScrapyのドキュメントの文字列なので、私はそう信じています。 'NameError:name 'parse_page'が定義されていません。 –

答えて

2

問題は、それは、ドメイン名ではなくURL

allowed_domains = ['example.com'] 
関連する問題