robots.txtなしでロボットをブロックする方法

robots.txtは、われわれのように、Webクローラ/ロボットによる特定のWebページ/セクションのインデックス作成を避けるのに役立ちます。しかし、この方法を使用するといくつかの欠点があります。1. Webクローラーがrobots.txtファイルを聞くことができない。あなたが保護したいフォルダを誰にでも公開しています。robots.txtなしでロボットをブロックする方法

クローラから保護したいフォルダをブロックする別の方法がありますか？これらのフォルダはブラウザからアクセスできるようにする（/ adminなど）ことを覚えておいてください。

出典

2012-05-02 machineaddict

要求の場合はUser-Agentヘッダーをチェックし、ヘッダーにロボットの名前が含まれている場合は403を発行します。これは、すべての正直なロボットをブロックしますが、不正なロボットはブロックしません。しかし、再び、ロボットが本当に正直だったら、それはrobots.txtに従うでしょう。

出典

2012-05-02 06:47:15

ユーザーエージェントでホワイトリストを作成しようとしていますが、汚れていて、新しいユーザーエージェントが禁止される可能性があります。いくつかの他の解決策??? – machineaddict

robots.txtなしでロボットをブロックする方法

答えて

関連する問題