私はScrapyを介してウェブサイトをスクラップしようとしています。しかし、ウェブサイトは時には非常に遅く、ブラウザでの最初のリクエストでは15-20秒ほどかかります。とにかく、Scrapyを使ってウェブサイトをクロールしようとすると、TCP Timeoutエラーが発生します。私のブラウザではウェブサイトが正常に開かれます。私もテストのためUSER_AGENT
設定を上書きしているScrapy - TCP接続タイムアウトを設定する
2017-09-05 17:34:41 [scrapy.downloadermiddlewares.retry] DEBUG: Gave up retrying <GET http://www.hosane.com/result/spec
ialList> (failed 16 times): TCP connection timed out: 10060: A connection attempt failed because the connected party di
d not properly respond after a period of time, or established connection failed because connected host has failed to re
spond..
:ここにメッセージです。 この場合、DOWNLOAD_TIMEOUT
の設定は動作しません。デフォルトは180秒で、TCPタイムアウトエラーを出す前に20-30秒かかることさえありません。
この問題の原因は何ですか。 ScrapyでTCPタイムアウトを設定する方法はありますか?
ありがとう!これは正しい答えのようです。私はそれを試した後にあなたに戻ってきます! :) – Asym
私にとって、非常に高いタイムアウトであっても、そのウェブサイトは毎回反応せず、ほとんどの場合、応答しなかったことに注意してください。 –
私はブラウザでウェブサイトにアクセスすることができます...それでは、ユーザーエージェントであっても、Scrapyと異なる動作をするのはなぜですか... – Asym