不正な使用のために情報を収集するWebクローラーを特定する技術があるかどうかは疑問です。大まかに言って、サイトのカーボンコピーを作成するためのデータ盗難。敵対的なWebクローラーの特定
このシステムは、未知のソース(Googleクローラなどのリストにない場合)からクロールパターンを検出し、偽の情報をスクレイピングクローラに送信することが理想的です。
- 防御側として、一定の間隔でサイトにヒットした未知のクローラを検出した場合、攻撃者はその間隔をランダム化します。
- 防御側が同じエージェント/ IPを検出した場合、攻撃者はエージェントをランダム化します。
そして、私が迷子場所です - 攻撃者は間隔とエージェントをランダムた場合、どのように私は、同じネットワークからサイトを打つプロキシやマシンを差別しないでしょうか?
私は、疑わしいエージェントをjavascriptとcookieのサポートでチェックすることを考えています。ボギーが一貫してできなければ、それは悪い男だ。
他に何ができますか?履歴データのオンザフライ解析を迅速に行うためのアルゴリズムやシステムがありますか?
隠されているリンクを無視するように攻撃者がクローラを変更しないようにするにはどうすればよいですか?自動スキャンと.cssのリンクまたはリンク領域クラスとの比較、またはソースの毎日のピークとクローラの無視リンクリストへの迅速な変更によって、 トラップリンクを回避するためにリンクコンテンツの品質を確認するアルゴリズムを作成するとどうなりますか? – ian
Googleの不正行為と思われるCSSによるリンクが隠れているわけではありません(どのような目的であっても気にしません)? – Marek
素敵なトリックは、robots.txtで許可されていないハニーポットを言います(どこにもリンクしません)。 - いくつかの凶悪なロボットがファイルを読み込み、ジューシーなデータを探すために許可されていないリンクをクロールします。 BLAM!禁止された! – Piskvor