7
私はscrap CrawlSpider
を使用しており、クローラを制御するためにねじれリアクタを定義しています。テスト中、私は数GB以上のデータを収集するニュースサイトをクロールしました。ほとんどの場合、最新の記事に興味があり、リクエストされたページ、バイトまたは秒の数を制限する方法を探しています。Scrapy:リクエスト数またはリクエストバイト数を制限する
秒で
- request_bytes
- request_countsまたは
- 実行時間の制限を定義するための一般的な方法はありますか?
はCLOSESIPDER_PAGECOUNTは、各クモために動的に設定することができる方法はありますか? –
@ImanAkbari:問題の適切な質問を作成してください。 – Jon