2012-07-10 32 views
5

私のサイトを酷使してCPU使用量が400%を突破した後、私はrobots.txtを作成してルートに配置しました。例えば "www.example .com/":BingBotとBaiduSpiderはrobots.txtを尊重していません

User-agent: * 
Disallow:/

Googleはこのファイルを尊重し、Googleのログファイルにはこれ以上の出来事はありません。 しかしBingBot & BaiduSpiderはまだ私のログに(そしてたくさんの)表示されます。

&帯域幅があり、私のホスティングプロバイダがアカウントを一時停止しようとしていたため、私はすべてのページを削除しました(厄介なスクリプトがあった場合)、クリーンページをアップロードして、 .htaccess &のIPアドレスでrobots.txtファイルを作成しました。

私は正しいステップを実行したことを確認するためにどこでも検索しました(まだ.htaccessの "ReWrite"オプションは試していません)。

誰でも私がしたことが仕事をするべきであることを確認できますか? (私がこのベンチャーを開始して以来、6日間でCPU使用率は120%に低下しましたが、少なくともIPアドレスをブロックするとCPU使用率が通常の5〜10%に低下するはずです)。

+1

は悲しげに、robots.txtのは、ファイアウォールへのアクセス権を持っているならば、あなたは完全にそれらをブロックすることができ、「紳士協定」で、他の人々はあなたが持っている同じ問題を抱えています/www.webmasterworld.com/search_engine_spiders/4348357.htm(このリンクを禁止するIPアドレス) –

+0

こんにちはハラルド、リンクをありがとう。それらをIPアドレスで完全にブロックしました。彼らが私のrobots.txtとメタタグを読んでいない理由を推測する(私が変わった)。 CPU使用率が51%に下がりましたので、私はいくつかのIPアドレスを使って、robots.txtのルールとメタタグのルールを読んで、それがどうなるか見ていきます。もう一度、リチャード – Richard

答えて

2

これらがBingbotとBaiduspiderの正当なスパイダーである場合は、指定されたrobots.txtファイルを尊重する必要があります。しかし、これらのファイルが以前に索引付けされていれば、それを取り上げて演奏を開始するまでに時間がかかることがあります。

この例では適用されませんが、Baiduspiderのrobots.txt規格の解釈は、いくつかの点で他の主流のボット(Googlebot)と少し異なります。たとえば、標準ではDisallow:レコードのURLパスはプレフィックスと単純に定義されていますが、Baiduspiderはディレクトリ/パス名全体を一致させるだけです。 Disallow: /privというディレクティブが与えられた場合、GooglebotがURL http://example.com/private/と一致する場合、Baiduspiderはそうなりません。

参考ます:http:/
http://www.baidu.com/search/robots_english.html

+0

ありがとうございました – Richard

+0

こんにちは、ありがとう情報...しかしリンクは今壊れています。誰がそれがどこに移ったのか知っていますか? – rosuav

+0

@rosuav私はリンクを更新しました(これは確かに同じページかどうかはわかりません)。しかし、この例は、矛盾している点では全く明らかではありません。 'Disallow:/ help'は.../helpabc.html'"を禁止していますが、それに続く例の表では、 'Disallow:/ tmp'はそれを意味しません'/tmphoho'!彼らはまた同じ例を2回与えます( 'Disallow:/ tmp'とURL'/tmp')。 (それは本当に意味をなさないので、多分何かが翻訳で失われてしまった!) – MrWhite

関連する問題