ステータスコード200のページを返すウェブサイトをクロールして、すべてが問題ないことを示唆しています。これにより、ページがscrapyのキャッシュに入れられます。キャッシュに治療応答が追加されないようにする
これらのページは後で再クロールします。しかし、キャッシュ内にある場合、再クロールされません。
httpcacheミドルウェアからprocess_response関数をオーバーロードするか、reponse htmlの特定の文字列を探して、200コードをエラーコードで上書きすることは可能ですか?
特定のレスポンスをキャッシュに保存しないように、どのようにするのが最も簡単な方法でしょうか。
再度クロールすると、リクエストで 'dont_filter = True'を使用できません。 –
私はすでにそれをやっています。たぶん私は使用しているプロキシミドルウェアと関係があります。今、私はそれを解決するためのカスタムhttpcacheポリシーを定義しようとしています... – Jabb
どのようにあなたの仕事を教えてください。私はこの質問が将来的にはおそらく役に立つと考えている –