2012-05-02 4 views
1

robots.txtは、われわれのように、Webクローラ/ロボットによる特定のWebページ/セクションのインデックス作成を避けるのに役立ちます。しかし、この方法を使用するといくつかの欠点があります。1. Webクローラーがrobots.txtファイルを聞くことができない。あなたが保護したいフォルダを誰にでも公開しています。robots.txtなしでロボットをブロックする方法

クローラから保護したいフォルダをブロックする別の方法がありますか?これらのフォルダはブラウザからアクセスできるようにする(/ adminなど)ことを覚えておいてください。

答えて

2

要求の場合はUser-Agentヘッダーをチェックし、ヘッダーにロボットの名前が含まれている場合は403を発行します。これは、すべての正直なロボットをブロックしますが、不正なロボットはブロックしません。しかし、再び、ロボットが本当に正直だったら、それはrobots.txtに従うでしょう。

+0

ユーザーエージェントでホワイトリストを作成しようとしていますが、汚れていて、新しいユーザーエージェントが禁止される可能性があります。いくつかの他の解決策??? – machineaddict

関連する問題