ボットにrobot.txtのウェブサイトをクロールするかクロールしないように指示できます。一方、Googleのウェブマスターでは、クロールの速度を制御できます(Googleのロボットがウェブサイトをどれだけクロールするか)。クローラの活動をrobots.txtで制限することが可能かどうか疑問に思う。robots.txtでクロール速度を制御することはできますか?
私は、ボットがページをクロールするのを受け入れるが、時間やページ、サイズによってその存在を制限することを意味する!
ボットにrobot.txtのウェブサイトをクロールするかクロールしないように指示できます。一方、Googleのウェブマスターでは、クロールの速度を制御できます(Googleのロボットがウェブサイトをどれだけクロールするか)。クローラの活動をrobots.txtで制限することが可能かどうか疑問に思う。robots.txtでクロール速度を制御することはできますか?
私は、ボットがページをクロールするのを受け入れるが、時間やページ、サイズによってその存在を制限することを意味する!
私が見つけたわけではありません。 Robots.txtは、ボットに含めるか除外したいディレクトリやファイルを置く場所です。それがまだ標準ではない方法があれば。ボットを作成する人は、robots.txtを尊重するかどうかを選択しますが、すべてのボット(「悪いボット」)がこのファイルを尊重するわけではありません。
現在、クロールの速度やサイトの所要時間などを減らす設定があると、ロボットベースでボットベースになり、robots.txt値には標準化されません。
ありませんが、robots.txt
ファイルだけがインデックスを作成することにしたくないし、どのようなユーザーエージェントこれらのルールは、あまりにも適用されるページを指定することができます。このファイルでは何もできません。
一部のWebサイトでは、Allow
およびSitemap
ディレクティブが使用されていますが、一部のクローラが尊重しても有効なディレクティブではありません。
robots.txtで使用できるディレクティブは1つありますが、それは「クロール遅延」です。
例: クロール遅延:5
意味ロボットは5秒ごとに1つの以下のページをクロールしてはなりません。 しかし、私が知っている限り、この指令はrobots.txtによって正式にサポートされていません。
また、robots.txtファイルを実際にカウントしないロボットもあります。 したがって、一部のページへのアクセスを許可しなくても、Googleのような最大のものではなく、一部のロボットによって引き続きクロールされる可能性があります。
たとえば、Baiduはrobots.txtを無視できますが、それは確かではありません。
私はこの情報の公式な情報源を持っていないので、あなたはGoogleだけでもかまいません。
私は、これは本当に古い質問ですけど、私はそれがここでのGoogleドキュメントによると、公式の答えです追加したい:
あなたは、一般的にはGoogle ウェブマスターツールでクロール速度の設定を調整することができますアカウント。あたり
:ウェブマスター・ツール内からhttps://developers.google.com/webmasters/control-crawl-index/docs/faq#h04
は、次の手順を実行することができます。
を検索Consoleのホームページで、該当するサイトをクリックします。
歯車のアイコンをクリックし、[サイトの設定]をクリックします。
[クロール速度]セクションで、必要なオプションを選択し、必要に応じてクロール速度を制限します。
新しいクロールレートは90日間有効です。
最終私は聞いたことは、Googlebotがクロール遅延を無視するので、これは実際にGoogleのために助けにはなりません。しかし、他のいくつかのボットのために。どのボットが動作するかについての情報がなければ、この答えはむしろ不完全です。 – derobert
'Crawl-Delay'の詳細は、このSOの質問を参照してください:http://stackoverflow.com/questions/17377835/robots-txt-what-is-the-proper-format-for-a-crawl-delay-for-multiple -user-agent –
クロールディレイは標準の一部ではありませんが、一部のボットはそれを尊重しています:https://en.wikipedia.org/wiki/Robots_exclusion_standard#Crawl-delay_directive – nmit026