ScrapyJs（scrapy + splash）はスクリプトをロードできませんが、スプラッシュサーバーは正常に動作します

スクリプトを含むページをクロールするためにScrapy（scrapyjs）を適用しようとしています。 splash + scrapyを適用して、次のコードでレンダリングしました。ローカルホストを使用するのとまったく同じ引数である：8050サーバーに直接ScrapyJs（scrapy + splash）はスクリプトをロードできませんが、スプラッシュサーバーは正常に動作します

script = """ 
    function main(splash) 
     local url = splash.args.url 
     assert(splash:go(url)) 
     assert(splash:wait(0.5)) 
     return { 
     html = splash:html(), 
     png = splash:png(), 
     har = splash:har(), 
     } 
    end 
    """ 

    splash_args = { 
     'wait': 0.5, 
     'url': response.url, 
     'images': 1, 
     'expand': 1, 
     'timeout': 60.0, 
     'lua_source': script 
    } 

    yield SplashRequest(response.url, 
         self.parse_list_other_page, 
         cookies=response.request.cookies, 
         args=splash_args)

応答HTMLは、私が必要とする要素が含まれていませんが、私はローカルホスト上で直接それを使用する場合スプラッシュサーバはうまく機能：8050。

問題がどこにあるか知っていますか？

This is my settings.py 
    SPLASH_URL = 'http://127.0.0.1:8050' 
    SPIDER_MIDDLEWARES = { 
     'scrapy_splash.SplashDeduplicateArgsMiddleware': 100, 
    } 

    # Enable or disable downloader middlewares 
    # See http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html 
    DOWNLOADER_MIDDLEWARES = { 
     'scrapy_splash.SplashCookiesMiddleware': 723, 
     'scrapy_splash.SplashMiddleware': 725, 
     # scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 750, 
     'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810, 
    } 

    # Crawl responsibly by identifying yourself (and your website) on the 
    user-agent 
    USER_AGENT = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) 
    AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.111 
    Safari/537.36" 

    SPIDER_MIDDLEWARES = { 
     'scrapy_splash.SplashDeduplicateArgsMiddleware': 100, 
    } 

    # Enable or disable downloader middlewares 
    # See http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html 
    DOWNLOADER_MIDDLEWARES = { 
     'scrapy_splash.SplashCookiesMiddleware': 723, 
     'scrapy_splash.SplashMiddleware': 725, 
     # scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 750, 


'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810, 
}

出典

2017-05-11 yixian he

2秒のように大きな値を設定するのに疲れましたか？ – mizhgun

クロールしようとしているURLを教えてもらえますか？ –

デフォルトのエンドポイントは 'render.json'です。 'lua_source'引数を使用する（つまりLuaスクリプトを実行する）場合は、 '実行'エンドポイントを使用する必要があります。

yield SplashRequest(response.url, endpoint='execute', 
        self.parse_list_other_page, 
        cookies=response.request.cookies, 
        args=splash_args)

出典

2017-05-18 16:08:37

ScrapyJs（scrapy + splash）はスクリプトをロードできませんが、スプラッシュサーバーは正常に動作します

答えて

関連する問題