2017-09-17 6 views
6

私はログに、Chromeが期待したすべてのものの横にrobots.txtをリクエストしたことが気付きました。なぜChromeはrobots.txtをリクエストしていますか?

[...] 
2017-09-17 15:22:35 - (sanic)[INFO]: Goin' Fast @ http://0.0.0.0:8080 
2017-09-17 15:22:35 - (sanic)[INFO]: Starting worker [26704] 
2017-09-17 15:22:39 - (network)[INFO][127.0.0.1:36312]: GET http://localhost:8080/ 200 148 
2017-09-17 15:22:39 - (sanic)[ERROR]: Traceback (most recent call last): 
    File "/usr/local/lib/python3.5/dist-packages/sanic/app.py", line 493, in handle_request 
    handler, args, kwargs, uri = self.router.get(request) 
    File "/usr/local/lib/python3.5/dist-packages/sanic/router.py", line 307, in get 
    return self._get(request.path, request.method, '') 
    File "/usr/local/lib/python3.5/dist-packages/sanic/router.py", line 356, in _get 
    raise NotFound('Requested URL {} not found'.format(url)) 
sanic.exceptions.NotFound: Requested URL /robots.txt not found 

2017-09-17 15:22:39 - (network)[INFO][127.0.0.1:36316]: GET http://localhost:8080/robots.txt 404 42 
[...] 

私が実行しているクロム:

60.0.3112.113 (Developer Build) Built on Ubuntu, running on Ubuntu 16.04 (64-bit)

ですが、なぜでしょうか? 誰かが詳しく説明できますか?

+1

「robot.txt」ではなく「robots.txt」です。 – unor

+0

これを再現できますか?これはあなたのログで見たものですか? –

+0

私はブラウザを切り替えたことがありますが、ローカルマシン上のサーバーを再起動してリクエストを送信することで再現できます。 – zython

答えて

5

それはあなたのrobots.txtファイルを要求されたウェブサイトが、(あなたが言及したWappalizerなど)Chromeの拡張機能の一つではなかった可能性があります。これはなぜそれがChromeでのみ起こったのかを説明します。

ChromeのDevToolsの[ネットワーク]タブを確認して、要求が送信された場所とスクリプトのいずれかから来たものかどうかを確認できます。

-3

私はクロムがrobots.txtにウェブクローラ、特にGoogleウェブクローラ用にそれを保存するよう要求していると思います。

ウェブサイトの所有者は/robots.txtファイルを使用して、 ウェブロボットのサイトへの指示を与えます。これはロボット除外 プロトコルと呼ばれます。

これはうまくいきます:ロボットがWebサイトのURL、たとえば http://www.example.com/welcome.htmlを特定したいとします。それはそうする前に、それはhttp://www.example.com/robots.txtため チェックを初、そして見つけた:

ユーザーエージェントを:*のDisallow:/「ユーザーエージェント:*」は、このセクション は、すべてのロボットに適用されることを意味します。 「Disallow:/」は、ロボットに、 がサイトのどのページにもアクセスしないように指示します。

/robots.txtを使用したときに、2つの重要な考慮事項があります。

ロボットがあなたの/robots.txtを無視することができます。特に がセキュリティ上の脆弱性のためにウェブをスキャンするマルウェアロボットと、スパマーが使用する電子メールアドレス ハーベスタは注意を払わないでしょう。 /robots.txt ファイルは一般に公開されているファイルです。誰でもあなたのサーバのどの部分をロボットが使用したくないかを見ることができます。 情報を非表示にするために /robots.txtを使用しないでください。詳細情報については

Chromeのhttp://www.robotstxt.org/robotstxt.html

+1

あなたは*考えるか、あなたは*知っていますか? – zython

+0

申し訳ありませんが、私はスタックオーバーフローの新機能です –

関連する問題