2017-06-26 18 views
0

特定のURLセットをスクラップしています。Scrapy:リダイレクトを除外する方法404

example.com/job/1 
example.com/job/3 
example.com/job/4 
example.com/job/31 
example.com/job/50 

問題がある、私が除去されたものかわからない、と私は1から10000までクロールすることを決定した場合、私は、例えば見つからないページにリダイレクトの多くを得るだろう

example.com/job-not-found.html 

私が始まるURLを定義するには、whileループを使用し、今はScrapyは404ページにリダイレクトすべてのURLの解析方法から除外する。

現在、404ページに属する不必要なh1タグは、まだ解析されています。

答えて

0

Scrapyあなたは何とかそれを無効にしている意味し、デフォルトでは404の応答を無視し、settingsで次の属性をチェックし、あなたのクモのコードまたは多分それはmetaパラメータthrought渡し:

  • handle_httpstatus_list
  • handle_httpstatus_all
  • HTTPERROR_ALLOWED_CODES
  • HTTPERROR_ALLOW_ALL

これらの変数のいずれかがTrueであるか、または404ステータスを含むリストである必要があります。

あなたのケースではない場合は、HttpErrorMiddlewareミドルウェアを無効にした可能性があります。

関連する問題