simplehtmldomを使用して自分自身でWebクローラーを作成しており、クロールプロセスがきちんと機能しています。開始ページをクロールし、すべてのリンクをデータベーステーブルに追加し、セッションポインタを設定し、metaがページを更新して次のページに移動します。それはリンクが足りなくなるまで続ける。cronを使用してPHP Webクローラーを作成する
それはうまくいくが、明らかに大規模なウェブサイトのクロール時間は面倒だ。私は物事を少しスピードアップしたいと思っていましたし、おそらくそれをcronの仕事にしたいと思っていました。
メモリ制限/実行時間をより高く設定する以外に、できるだけ早く効率的にするためのアイデアはありますか?
PHPプロファイラ用のSOまたはGoogleを検索してください。何が減速しているのかを正確に判断することができます。そこから、 'file_get_contents() 'を高速化する方法のようなより具体的な質問をすることができます。 –
私はこのサイトをデッドリンクをチェックするためだけにビルドし、すべてのリンクが適切なアンカー+タイトルを持っていることを確認し、すべてのページにtitle/h1タグがあることを確認します。 – Horse