2013-10-03 13 views
7

私はscrap CrawlSpiderを使用しており、クローラを制御するためにねじれリアクタを定義しています。テスト中、私は数GB以上のデータを収集するニュースサイトをクロールしました。ほとんどの場合、最新の記事に興味があり、リクエストされたページ、バイトまたは秒の数を制限する方法を探しています。Scrapy:リクエスト数またはリクエストバイト数を制限する

秒で

  • request_bytes
  • request_countsまたは
  • 実行時間の制限を定義するための一般的な方法はありますか?

答えて

16

scrapyには、scrapy.contrib.closespider.CloseSpiderというクラスがあります。 変数CLOSESPIDER_TIMEOUT,CLOSESPIDER_ITEMCOUNT,CLOSESPIDER_PAGECOUNTおよびCLOSESPIDER_ERRORCOUNTを定義することができます。基準が満たされたとき

クモは自動的に閉じます: http://doc.scrapy.org/en/latest/topics/extensions.html#module-scrapy.contrib.closespider

+0

はCLOSESIPDER_PAGECOUNTは、各クモために動的に設定することができる方法はありますか? –

+1

@ImanAkbari:問題の適切な質問を作成してください。 – Jon