1か月に約500,000人までのクローリングエンジンがあります。私たちは現在、ウェブページを取得するためにカールを使用しています。私たちは最近、マルチエグゼクティブを使ってページを同時にクロールしました。私たちは同時に20ページのようにそれをクロールするように設定しました。複数のクローリング問題を巻きます
ウェブページを取得するプロセス中に、カールは20ページすべてが取り込まれるまで完全に停止し、次の20ページに移動します。その1ページがフェッチされてからカールが遅れる次の20ページになる次のループに移動するまでそのページがロードされます。
これを克服する他の方法はありますか?私の質問がはっきりしていることを願っています私はちょうど画像のカールが同時に20ページをフェッチしているわけ克服して、後で
タイムアウト設定を探していますか? –
@Pekka - ok私はもう少し質問を明確にします。 –
@Pekka: 'CURLOPT_CONNECTTIMEOUT'と' CURLOPT_TIMEOUT'を使って試しましたが、まだいくつかのページが非常に長い時間読み込まれています。問題を理解するためにそれをまだデバッグしていない。 – Ranty