中規模の専用サーバーで、コンテンツは大量でトラフィックは少ないサイトを実行しています。Googlebotがサイトを圧倒しないようにするにはどうすればよいですか?
時々、Googlebotが私たちを押しつぶして、その結果Apacheがメモリを使い果たし、サーバーがクラッシュすることがあります。私はこの問題を回避するにはどうすればよい
?
中規模の専用サーバーで、コンテンツは大量でトラフィックは少ないサイトを実行しています。Googlebotがサイトを圧倒しないようにするにはどうすればよいですか?
時々、Googlebotが私たちを押しつぶして、その結果Apacheがメモリを使い果たし、サーバーがクラッシュすることがあります。私はこの問題を回避するにはどうすればよい
?
Googleのウェブマスターツールでクロールの速度を設定できます。
Googleウェブマスターツールを使用してサイトを登録すると、毎秒のGooglebotがサイトのインデックスを作成する頻度とリクエスト数を設定できます。 Googleウェブマスターツールでは、robots.txtファイルを作成してサイトの負荷を軽減することもできます。
Googleのウェブマスターツールを使用してサイトのクロール方法を設定できます。具体的にはこのページをご覧ください:Changing Google's crawl rate
また、robots.txtファイルを使用してGoogle botが検索するページを制限することもできます。 crawl-delay
の設定がありますが、Googleによってnot honoredと表示されます。
Googleウェブマスターツール(サイト設定)でクロール速度を設定できますが、設定は6か月間のみ有効です。だから、再度設定するには6ヶ月ごとにログインする必要があります。
この設定はGoogleで変更されました。この設定は90日間のみ保存されます(6か月ではなく3か月間)。
これはGoogleではない可能性があります。問題のボットのIPアドレスを特定し、逆引き参照してください。 Googleのドメインに解決されているかどうかを確認します。 Googlebotのユーザーエージェントを使用した非常に積極的なボットを見たことがあります。 – DmitryK