2009-05-30 4 views
4

不正な使用のために情報を収集するWebクローラーを特定する技術があるかどうかは疑問です。大まかに言って、サイトのカーボンコピーを作成するためのデータ盗難。敵対的なWebクローラーの特定

このシステムは、未知のソース(Googleクローラなどのリストにない場合)からクロールパターンを検出し、偽の情報をスクレイピングクローラに送信することが理想的です。

  • 防御側として、一定の間隔でサイトにヒットした未知のクローラを検出した場合、攻撃者はその間隔をランダム化します。
  • 防御側が同じエージェント/ IPを検出した場合、攻撃者はエージェントをランダム化します。

そして、私が迷子場所です - 攻撃者は間隔エージェントをランダムた場合、どのように私は、同じネットワークからサイトを打つプロキシやマシンを差別しないでしょうか?

私は、疑わしいエージェントをjavascriptとcookieのサポートでチェックすることを考えています。ボギーが一貫してできなければ、それは悪い男だ。

他に何ができますか?履歴データのオンザフライ解析を迅速に行うためのアルゴリズムやシステムがありますか?

答えて

9

私の解決策は、トラップを作ることです。 robots.txtによってアクセスが禁止されているページをサイトに配置します。あなたのページにリンクを張りますが、CSSでそれを隠してから、そのページに行く人は誰でも禁止します。

これは犯行者にrobots.txtに従うように強制します。つまり、重要な情報やサービスを彼から離れて永久に置くことができ、カーボンコピーの複製を無用にします。

+1

隠されているリンクを無視するように攻撃者がクローラを変更しないようにするにはどうすればよいですか?自動スキャンと.cssのリンクまたはリンク領域クラスとの比較、またはソースの毎日のピークとクローラの無視リンクリストへの迅速な変更によって、 トラップリンクを回避するためにリンクコンテンツの品質を確認するアルゴリズムを作成するとどうなりますか? – ian

+0

Googleの不正行為と思われるCSSによるリンクが隠れているわけではありません(どのような目的であっても気にしません)? – Marek

+0

素敵なトリックは、robots.txtで許可されていないハニーポットを言います(どこにもリンクしません)。 - いくつかの凶悪なロボットがファイルを読み込み、ジューシーなデータを探すために許可されていないリンクをクロールします。 BLAM!禁止された! – Piskvor

2

IPとタイミングまたは間隔では認識しないでください。クローラに送信したデータを使用してトレースしてください。

よく知られた良いクローラのホワイトリストを作成します。あなたのコンテンツを通常どおりに提供します。残りの部分は、見た目だけを知っているユニークなコンテンツの余分なビットでページを提供してください。その署名を使用して、後で誰があなたのコンテンツをコピーしているかを特定し、それらをブロックする。

2

あなたのサイトにアクセスしてすべての情報を記録するために、ブラウザを使用する低賃金の国に人を雇うことを防ぐにはどうすればよいですか? robots.txtファイルを設定し、セキュリティインフラストラクチャに投資してDoS攻撃を防ぎ、コードを難読化し(javascriptのようにアクセス可能な場合)、あなたの発明を特許し、あなたのサイトの著作権を保護します。法的な人たちがあなたを取り払う人を心配させてください。

+3

この「エクササイズ」では、a)手作業でコピーするデータが多すぎること、b)データが頻繁に変更されること、c)攻撃者が誰かにこれを行うのに決してお金を使うことのないパンクでないこと、 –

+0

GeoIPでパンクを追跡し、おじさんのサルに「彼が拒むことができないオファーをする」ようにしてください。 :-) – tvanfosson