googlebotなどのトップ検索エンジンのスパイダーだけを検出し、自分のサイトのコンテンツにアクセスさせる非常に堅牢な方法を開発したいと思っています。そうでなければ通常のユーザー登録/ログインが必要です。トップレット検索エンジンのボットを検出するにはどうすればよいですか?
私は、ユーザーが登録せずに一部のコンテンツにアクセスできるようにするために、Cookieも使用しています。クライアントブラウザでクッキーが無効になっている場合、フロントページ以外のコンテンツは提供されません。しかし、私は検索エンジンのスパイダーがクッキーを受け入れることはないと聞いたので、これも正当な検索エンジンのボットを止めるだろう。これは正しいです?
私が聞いた1つの提案は、IPアドレスから逆引きを行い、例えばgooglebot.comに解決した場合、前方DNS検索を行い、元のIPを元に戻すと正当であり、 googlebot。私はLinuxのサーバー上でJavaを使用しているので、私は探しているJavaベースのソリューションです。
私は、このようなグーグルヤフービングアレクサなどとしてトップの良い検索エンジンのスパイダーを入れると、サーバーの負荷を軽減するために他人を締め出すています。しかし、その非常に重要なトップスパイダーは私のサイトのインデックスを作成します。
誰でも任意のユーザーエージェントをリクエストに入れることができます。したがって、UAによるフィルタリングは役に立ちません。 –
彼は検出するために何ができるのか尋ねました。これはあなたができることの一つです。そしてあなたができることに関係なく、悪いスパムボットでさえ自分自身を識別します。卑劣になっているほとんどの人は、単に自分のユーザーエージェントを変更するよりも少し良いです。 –