2017-08-12 9 views
0

私はScrapyのキャッシュを使用します。まず、キャッシュするすべてのページを収集し、データ収集を開始します。 は時には弱いサイトで私はそれを参照してください。httpエラーでページを保存しているスクラップの停止方法

DEBUG: Crawled (504) < url.....> ['cached'] 

エラーでページがキャッシュに保存なぜ? どのように無効にするには?

TEST:キャッシュと

<?php 
    http_response_code (504); 
    ?> 

実行クモ。 その後、 変更ページ

<?php 
    echo 1; 
    ?> 

に実行クモ再びとget:

DEBUG: Crawled (504) < url.....> ['cached'] 

答えて

0

をデフォルトのHTTPキャッシュポリシーがDummyPolicyです。インターネット接続が利用できないとき、ダミー政策は(ダウンロードに毎回待機する をせずに)速いクモをテストするための、あなたのクモをオフラインをしようとする場合に便利です

:名前が示すように、それはかなり基本的なのです。目的は、スパイダーが以前に実行されたとおりに正確に実行されるように ができるようにすることです。

HTTPCACHE_IGNORE_HTTP_CODES設定でキャッシュしたくないHTTPコードを設定するオプションがあります。

別のオプションは(nearly) RFC2616-compliant policyを使用することです:

HTTPCACHE_POLICY = 'scrapy.extensions.httpcache.RFC2616Policy' 
関連する問題