python
  • scrapy
  • web-crawler
  • distributed
  • 2016-08-23 27 views 0 likes 
    0

    分散スパイダーを使用して作成しましたscrapy-redis.
    最初はすべてがうまく見えました。scrapy-redisは、既に1つのマシンがクロールしているURLを再クロールします。

    設定ファイル:

    SCHEDULER = "scrapy_redis.scheduler.Scheduler" 
    DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" 
    SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.SpiderPriorityQueue' 
    

    はしかし、すべてのURLをクロールした後、1匹のクモは閉じますが、他はそうしなかった - と、すでにクロールされた再クロールしたURLに始まりました。

    誰でも私を助けて、理由を説明できますか?

    +0

    ビダルさん、私たちに[MCVE]を見せたら、助けてくれるかもしれません。 – boardrider

    答えて

    0

    私は問題を解決しました!スパイダーは、 "def close_spider(self、spider):"関数を使って間違ったパラメータ設定が原因で正常に閉じられません。

    関連する問題