2009-05-28 2 views
-2

私のサイトに100秒間のページをスクロールしてログにIPが表示されたらどうすればよいですか?私はワードプレスのブログを持っており、これは本当の人ではないようです。これはほぼ毎日異なるIPで発生します。いくつかのIPが私のウェブサイトの何百ものページを見ているのはどういう意味ですか?

更新:ああ、私はそれが検索エンジンのスパイダーではないと確信しています。ホスト名は検索エンジンではなく、インドのランダムな人物(「.in」で終わります)です。 私が心配しているのは、それがスクレーパーなら、私は何ができるのでしょうか?あるいは、恐らくスクレーパーより悪いことかもしれません。ハッカー?

+3

インターネットへようこそ。あなたがウェブ上にものを置くとき、誰でもそれを取ることができます。それは一種の考えです。 – GEOCHET

+0

ハッカーであればもっと怖いです – chris

+0

「.in」で終わるホスト名と検索エンジンでないホスト名の間のリンクを理解するのに苦労します。 –

答えて

4

スパイダー/クローラーです。検索エンジンはこれらを使用してリスティングを作成し、研究者はそれらを使用してインターネットの構造を把握し、インターネットアーカイブはインターネットのコンテンツを将来の世代のためにダウンロードし、スパム発信者は電子メールアドレスの検索に使用します。より多くのそのような状況。

ログ内のユーザーエージェント文字列をチェックすると、自分が行っていることに関する詳細情報が表示される場合があります。よく行動しているボットは、一般的にはそれらが誰であるかを示します。例えば、Googleの検索ボットはGooglebotです。

+0

okだから、ホスト名はgooglebot.comやそれに類するものではありません。私はそれがスパイダーではないと確信しています – chris

+1

それはスパイダーではないというわけではありません。そこにはたくさんのあいまいなクモがあります。また、ユーザーエージェントとホスト名は異なるものです。 – ceejayoz

+0

'wget'は、コンテンツタイプ(グラブページ+画像、ページのみなど)、再帰的な深さ、外部リンクに従うなど、すべてのリンクアクセス可能なページを再帰的に取得することを容易にします。それで、wgetやそれに類するものを使って人間になれるかもしれませんが、おそらくもっと自動のスパイダーであることに同意しました –

0

おそらく、あなたのブログ(またはサーバー)の悪用を利用しようとしているスクリプトの子供がいるかもしれません。それ、またはいくつかのWebクローラ。

0

おそらくあなたのサイトにインデックスを作成するスパイダーボットです。 「User-Agent」はそれを放棄するかもしれません。すべてのブログページではなく、css、js、imagesなどのものが含まれている場合は、動的に生成されたWordpressサイトに対して100秒のGETリクエストを簡単に作成できます。

2

スクリプトの怪物が心配なら、エラーログを確認することをおすすめします。スクリプトはしばしばあなたが持っていないものを探します。例えばあるシステムでは私はASPを持っていませんが、エラーログでASPページを見つけようとするとスクリプトの児童がサイトを調査したことを知ることができます。

+0

ASPページを検索しようとしていることをどのように知っていますか? – chris

+2

のように、人はadmin.asp、management.asp、login.aspなどのような多くのページを要求します。彼らは、慎重に分析するのではなく、できるだけ早く可能な穴を見つけようとします。 –

+0

@Chris:Paulの答えは私の経験と一致します。 – PTBNL

関連する問題