2012-11-22 6 views
7

スクリーニングで低速なクロール速度が発生しています(約1ページ/秒)。 私はawsサーバから主要なウェブサイトをクロールしているので、ネットワーク上の問題はないと思います。 Cpuの利用率は100%近くありません。複数の治療プロセスを開始すると、クロール速度がはるかに速くなります。スクリーニングクロール速度が遅い(60ページ/分)

治療はページの束をクロールし、数秒間ハングしてから繰り返すようです。

私はで遊んで試してみた: CONCURRENT_REQUESTS = CONCURRENT_REQUESTS_PER_DOMAIN = 500

が、これは本当に過ぎて針を動かしていないようだ約20で

+0

どの治療版ですか?デフォルト以外のエクステンション/ミドルウェア?休止コードがある可能性があります。スクレイピングをブロックしている原子炉のスレッドで何か(DBへのデータの書き込み、s3へのアップロードなど)を行うことができますか? –

+0

@somewire check CPU | HDD | lxmlでページを解析せずに廃棄するだけでネットワークを利用できます。 'LOG_LEVEL = 'DEBUG''を設定してください – nk9

答えて

2

あなたは必ず先をクロールするために許可されています高速でサイト?多くのサイトではダウンロードのしきい値が実装されており、「しばらくしてから」ゆっくりと応答し始めます。

+0

要求が503を返し、フロントエンドサーバがnginxならばあなたは正しいでしょうhttp://nginx.org/en/docs/http/ngx_http_limit_conn_module.html – nk9

関連する問題