IPアドレスか、ボットまたはウェブブラウザから送信された 'User-Agent'文字列のいずれかで行くことができます。
Googlebot(または他のよく行動するロボット)があなたのウェブサイトにアクセスすると、彼らは自分が何であるかを示す$ _SERVER ['HTTP_USER_AGENT']変数を送信します。いくつかの例は次のとおり
のGooglebot/2.1(+ http://www.google.com/bot.html)
NutchCVS/0.8-DEV(Nutchの、http://lucene.apache.org/nutch/bot.html
Baiduspider +(+ http://www.baidu.com/search/spider_jp.html)
のMozilla/5.0(X11; U; Linuxのi686の; EN-US)のAppleWebKit/531.4(KHTML、ヤモリのような)あなたはこれらのウェブサイトでより多くの例を見つけることができます
: link text link text
PHPを使用してユーザーエージェント文字列を調べ、ユーザーが検索エンジンであるかどうかを判断できます。私は、多くの場合、このようなものを使用します。
$searchengines = array(
'Googlebot',
'Slurp',
'search.msn.com',
'nutch',
'simpy',
'bot',
'ASPSeek',
'crawler',
'msnbot',
'Libwww-perl',
'FAST',
'Baidu',
);
$is_se = false;
foreach ($searchengines as $searchengine){
if (!empty($_SERVER['HTTP_USER_AGENT']) and
false !== strpos(strtolower($_SERVER['HTTP_USER_AGENT']), strtolower($searchengine)))
{
$is_se = true;
break;
}
}
if ($is_se) { print('Its a search engine!'); }
は全く検出方法(Googleアナリティクスや他の統計パッケージまたはそれ以外)が100%正確であることを行っていないことに注意してください。一部のWebブラウザではカスタムのユーザーエージェント文字列を設定できますが、不正なWebクローラーはユーザーエージェント文字列をまったく送信しないことがあります。この方法はおそらく、クローラ/訪問者の95%以上に有効です。
私はこれが見ていたと思う.... – coderex