2017-11-15 15 views
0

のために私は(旧)ワーキングウェブサイトのクローラーを更新中です。私がクロールしているウェブサイトにはより厳しい禁止規則が導入されているようですので、この問題を回避する試みとしてクローラを使用し始めました。カスタマイズCrawlera禁止ルールはScrapy

私は現在抱えている問題は、対象のウェブサイトは、標準のHTMLページに302を行うための非標準的な禁止アプローチを使用していることです。クローラーはこれを禁止として検出せず、すぐにクロールを停止します。 Crawleraが禁止として検出したものをカスタマイズできる方法はありますか、別の方法を検討する必要がありますか?

答えて

2

私は(まだ、あなたは彼らのサポートを求めることができ、私は完全にわからない)あなたは自分のシステムにそのルールを挿入するためにそれらを求めることができ、また、あなたの計画に応じて、彼らはあなたの独自のルールをカスタマイズする方法を提供すべきだと思います。

は私がいない場合、私はそのリダイレクトが発生したときに再試行するDownloader Middlewaresあなた自身を作成することをお勧めします、それはあなたの最善の策であると言うでしょう。彼らは禁止を取得するときに何crawleraあなたは0に再試行を設定し、あなたが得るものの応答に応じて、それらを自分で処理する必要がありますので、(あなたがヘッダーにもそれを設定することができます)n回以上再試行することです。完全そうです

+0

は、サポートチケットを経由して、これを解決することになったし、彼らは彼らのシステムにそのルールを追加することができました。 – Miek