最初のURLの後にスプラッシュが付いているCrawlSpider

私はスプラッシュでいくつかのレスポンスをレンダリングする必要があるスクラピースパイダーを作成しています。私のスパイダーはCrawlSpiderに基づいています。 start_urlレスポンスをクロールスパイダーに供給する必要があります。残念ながら、最初の応答のレンダリングの後に私のクモのクモは停止します。どんな考えが間違っているのでしょうか？最初のURLの後にスプラッシュが付いているCrawlSpider

class VideoSpider(CrawlSpider): 

    start_urls = ['https://juke.com/de/de/search?q=1+Mord+f%C3%BCr+2'] 

rules = (
    Rule(LinkExtractor(allow=()), callback='parse_items',process_request = "use_splash",), 
) 

def use_splash(self, request): 
    request.meta['splash'] = { 
      'endpoint':'render.html', 
      'args':{ 
       'wait':0.5, 
       } 
      }  
    return request 

def start_requests(self): 
    for url in self.start_urls: 
     yield scrapy.Request(url, self.parse, meta={ 
      'splash': { 
       'endpoint': 'render.html', 
       'args': {'wait': 0.5} 
     } 
    }) 


def parse_items(self, response):  
    data = response.body 
    print(data)

出典

2016-06-22 Jan Wilhelm

代わりscrapy.Requestの

使用SplashRequest ...私の答えをチェックアウト CrawlSpider with Splash

出典

2017-03-25 18:41:32 scriptso

最初のURLの後にスプラッシュが付いているCrawlSpider

答えて

関連する問題