スクリーニングで低速なクロール速度が発生しています(約1ページ/秒)。 私はawsサーバから主要なウェブサイトをクロールしているので、ネットワーク上の問題はないと思います。 Cpuの利用率は100%近くありません。複数の治療プロセスを開始すると、クロール速度がはるかに速くなります。スクリーニングクロール速度が遅い(60ページ/分)
治療はページの束をクロールし、数秒間ハングしてから繰り返すようです。
私はで遊んで試してみた: CONCURRENT_REQUESTS = CONCURRENT_REQUESTS_PER_DOMAIN = 500
が、これは本当に過ぎて針を動かしていないようだ約20で
どの治療版ですか?デフォルト以外のエクステンション/ミドルウェア?休止コードがある可能性があります。スクレイピングをブロックしている原子炉のスレッドで何か(DBへのデータの書き込み、s3へのアップロードなど)を行うことができますか? –
@somewire check CPU | HDD | lxmlでページを解析せずに廃棄するだけでネットワークを利用できます。 'LOG_LEVEL = 'DEBUG''を設定してください – nk9