Scrapy：リダイレクトを除外する方法404

特定のURLセットをスクラップしています。Scrapy：リダイレクトを除外する方法404

example.com/job/1 
example.com/job/3 
example.com/job/4 
example.com/job/31 
example.com/job/50

問題がある、私が除去されたものかわからない、と私は1から10000までクロールすることを決定した場合、私は、例えば見つからないページにリダイレクトの多くを得るだろう

example.com/job-not-found.html

私が始まるURLを定義するには、whileループを使用し、今はScrapyは404ページにリダイレクトすべてのURLの解析方法から除外する。

現在、404ページに属する不必要なh1タグは、まだ解析されています。

2017-06-26 GRS

Scrapyあなたは何とかそれを無効にしている意味し、デフォルトでは404の応答を無視し、settingsで次の属性をチェックし、あなたのクモのコードまたは多分それはmetaパラメータthrought渡し：

これらの変数のいずれかがTrueであるか、または404ステータスを含むリストである必要があります。

あなたのケースではない場合は、HttpErrorMiddlewareミドルウェアを無効にした可能性があります。

2017-06-26 16:54:24 eLRuLL

答えて