私は、URL、紹介コード、セッション、時間などを記録することによって、ページビューの非常に初歩的な追跡を行っていますが、ロボット(Google、Yahooなど)に爆撃されています。私は、これらの統計情報をフィルタにかけるか、ログに記録するのが効果的な方法ではないかと思います。すべてのウェブサイトの活動を追跡し、ウェブロボットのデータをフィルタリングする方法
私はロボットIPリストなどを実験しましたが、これは絶対確実ではありません。
robots.txt、htaccess、PHPサーバー側のコード、JavaScriptや他の方法でロボットを「騙したり、人間以外のやりとりを無視することはできますか?
ほとんどの/すべてのロボットがJavaScriptに従わないと仮定しましたか?この手法を使用する主な欠点は、JavaScriptを無効にしているユーザーにとって、侵入型JavaScriptおよびコンテンツにアクセスできないことです。しかし、これは、よりアクセスしやすいコードで簡単に修正でき、2つのトラッキングシステム(JavaScriptを使用した訪問とWITHOUT以外の訪問)を持つことで簡単に修正できます。ロボットではなく、ユーザエージェントによってフィルタリングされることはありません。 –
@Peter - 彼らはJavascriptに従うことはできません。それはSEOのために侵入して悪いものです。私は、この技術を指摘する必要性を感じました。私は、開発者がGoogleのページに「spamdexes」というフラグを付けるのを防ぐために、膨大な数のリンクを隠すためにそれを使用していることを知っています。 – karim79
@Peter - ...と私はしませんそれは自分:) – karim79