治療の収量がうまくいかない

私は次の治療のスパイダーを書いたが、私はyieldをもう一度scrapy.Requestに従うべきであるが、最初の要求の後にクロールプロセスを続行していない。治療の収量がうまくいかない

import regex as re 
import scrapy 
from scrapy.linkextractors import LinkExtractor 
from scrapy.spiders import Spider 

class myspider(Spider): 
name = 'haha' 

allowed_domains = ['https://blog.scrapinghub.com/'] 
start_urls = ['https://blog.scrapinghub.com/'] 
extractor = LinkExtractor(allow=allowed_domains) 

def parse(self, response): 
    # To extract all the links on this page 
    links_in_page = self.extractor.extract_links(response) 

    for link in links_in_page: 
     yield scrapy.Request(link.url, callback=self.parse)

出典

2016-10-14 Jason Gao

allowed_domains、a list of domainsするURLのリストを必要はありません。

だから、次のようになります。

allowed_domains = ['blog.scrapinghub.com']

出典

2016-10-14 14:17:37

治療の収量がうまくいかない

答えて

関連する問題