2016-10-14 12 views
1

私は次の治療のスパイダーを書いたが、私はyieldをもう一度scrapy.Requestに従うべきであるが、最初の要求の後にクロールプロセスを続行していない。治療の収量がうまくいかない

import regex as re 
import scrapy 
from scrapy.linkextractors import LinkExtractor 
from scrapy.spiders import Spider 

class myspider(Spider): 
name = 'haha' 

allowed_domains = ['https://blog.scrapinghub.com/'] 
start_urls = ['https://blog.scrapinghub.com/'] 
extractor = LinkExtractor(allow=allowed_domains) 

def parse(self, response): 
    # To extract all the links on this page 
    links_in_page = self.extractor.extract_links(response) 

    for link in links_in_page: 
     yield scrapy.Request(link.url, callback=self.parse) 

答えて

1

allowed_domainsa list of domainsするURLのリストを必要はありません。

だから、次のようになります。

allowed_domains = ['blog.scrapinghub.com'] 
関連する問題