2016-04-29 16 views
0

不許可行に複数のURIが含まれているとどうなりますか?例:robots.txt:不適切な形の不許可行の処理方法

Disallow:/tmp/ 

私は間違ってホワイトスペースを導入しました。

ウェブブラウザがこれに対処する方法には標準的な方法がありますか?彼らは全体のラインを無視するか、単に二URIを無視して、それが好きな扱いでください:

Disallow:/
+1

[robots.txt'標準](http://www.robotstxt.org/orig.html)を非常に厳密に読むと、そのスペースはフィールドの値の一部です'User-Agent'行です。私は '/%20tmp /'と同等と考えるでしょう。しかし、他の実装者は意見が一致しないかもしれません。スタンダードはかわいいです。 –

+0

最も簡単な方法は、Googleのウェブマスターツールを使用し、robots.txtパーサー/ヘルパーを確認することです。 –

+0

残念ながら、今はWebサーバーにアクセスできません。そのツールはドメインと連携するように設計されているようですが、robots.txtを送信するだけでは... – karmapolice

答えて

1

グーグル、少なくとも、パスの先頭、最後の非として最初の非空白文字を扱うように見えますスペース文字を最後に使用します。間にあるものは、パスであってもパスの一部としてカウントされます。 Googleはまた、スペースを含むパス内の特定の文字を黙ってパーセントエンコードします。

だから、次

Disallow:/tmp/ 

はブロックされます:

http://example.com/%20tmp/ 

をそれ意志ないブロック:私はGoogleのrobots.txtのテスターでこれを確認した

http://example.com/tmp/ 

。 Google以外のクローラの場合はYMMV。

関連する問題