2009-08-25 6 views
8

中規模の専用サーバーで、コンテンツは大量でトラフィックは少ないサイトを実行しています。Googlebotがサイトを圧倒しないようにするにはどうすればよいですか?

時々、Googlebotが私たちを押しつぶして、その結果Apacheがメモリを使い果たし、サーバーがクラッシュすることがあります。私はこの問題を回避するにはどうすればよい

+3

これはGoogleではない可能性があります。問題のボットのIPアドレスを特定し、逆引き参照してください。 Googleのドメインに解決されているかどうかを確認します。 Googlebotのユーザーエージェントを使用した非常に積極的なボットを見たことがあります。 – DmitryK

答えて

7
  • レジスタは、
  • ダウンあなたのサイトやスロットルGoogleのボットを確認し、サイトマップ
  • を提出アクセスを制限するには、Google guildelines:(変更した場合は-ので、HTTPヘッダ)
  • 使用robot.txtを読みますボットからウェブサイトのある部分まで
  • robot.txtをそれぞれ$ [時間]に変更するスクリプトを作成して、ボットができるだけ多くのページを同時にクロールできないようにしますコンテンツ全体をクロールする
0

Googleのウェブマスターツールでクロールの速度を設定できます。

1

Googleウェブマスターツールを使用してサイトを登録すると、毎秒のGooglebotがサイトのインデックスを作成する頻度とリクエスト数を設定できます。 Googleウェブマスターツールでは、robots.txtファイルを作成してサイトの負荷を軽減することもできます。

7

Googleのウェブマスターツールを使用してサイトのクロール方法を設定できます。具体的にはこのページをご覧ください:Changing Google's crawl rate

また、robots.txtファイルを使用してGoogle botが検索するページを制限することもできます。 crawl-delayの設定がありますが、Googleによってnot honoredと表示されます。

Googleウェブマスターツールで
1

Googleウェブマスターツール(サイト設定)でクロール速度を設定できますが、設定は6か月間のみ有効です。だから、再度設定するには6ヶ月ごとにログインする必要があります。

この設定はGoogleで変更されました。この設定は90日間のみ保存されます(6か月ではなく3か月間)。

関連する問題