2016-04-12 2 views
1

であるため/前方Googleのを禁止するために私を強制し、私はこのようなものをたくさん持っているfail2banの:は私のApacheのログでは私のログ

<IP ADDRESS> - - <DATE> "GET /forward?path=http://vary_bad_link_not_for_children" <NUM1> <NUM2> "-" <String> 

<NUM1>:302または404

<NUM2>:5XX、6XXまたは11XX

<文字列>:

「のMozilla/5.0(互換性があります。 AhrefsBot/5.1; + http://ahrefs.com/robot/)」

の "Mozilla/5.0(互換; MJ12bot/v1.4.5; http://www.majestic12.co.uk/bot.php?+)"

の "Mozilla/5.0(互換;のGooglebot/2.1; + ...リンク)"

の "Mozilla/5.0(互換; Exabot/3.0; + ...リンク)"

等...

私はこの正規表現でfail2banのために刑務所を作っています

failregex = ^<HOST> .*"GET .*/forward\?path= 

禁止されているIPアドレス(ログに記載されている< IPアドレス>を参照)は、googleやその他のよく知られている企業のIPアドレスです。

私は本当にこのような理由を理解していません。私はなぜGoogleと他の企業を禁止すべきなのか、もしそうでなければ、私のサーバーへのそれらの不適切な要求をすべて受け入れるべきなのです。それは悪い説明したように、私は、私の質問を明確にしたいと思います

1-なぜGoogleのIP(および他の既知の企業が)「ポルノ」のそれらの種類を行っているが

2 - であるを要求します"/ forward?path = ..."という意味は、それはApacheの機能ですか?

3 - 私のサイトを参照する "良い"ボットを止めることなくこの問題を処理する方法。

助けを借りてありがとう!

+0

これらの検索ボットに '/ forward'の訪問を停止しますか?もしそうなら、それをあなたの[robots.txt](http://www.robotstxt.org/)で禁止すべきです。そうでない場合は、質問を編集して必要な動作を記述する必要があります。 – Leopold

+0

私の問題は、私が知っているそれらの(知っている)ボットを私のサイトに訪れることに同意することですが、私はそれらが不適切な(ポルノ)URL(パス= http:// vary_bad_link_not_for_children)を検索することに同意しません。私はなぜGoogleのIPがこの種のコンテンツを探しているのか理解していません...私が明らかであれば教えてください。 – Baud

+0

私は私の質問を更新しました、私はそれがより明確であることを願っています。 – Baud

答えて

0

あなたのrobots.txtにあなたのサイトの一部を訪問しないようにロボットに指示できます。あなたのrobots.txtに

User-agent: * 
Disallow: /forward 

を追加

/forwardで始まるすべてのページを訪問からすべてのロボットを離れて維持します。彼らは他のページを訪問し、索引付けを続けるでしょう。あなたが/forward?path=something_niceなく/forward?path=very_bad_linkを許可したい場合は、あなたがそれを行うことができます

User-agent: * 
Disallow: /forward?path=a_specific_bad_link 
Disallow: /forward?path=another_bad_link 

はなぜボットは、これらの要求を作っていますか?

これは完全に無害かもしれません。誰かが間違ってあなたのサイトにリンクしている可能性があります。たぶん、存在していたページはもはや存在しません。

これは、このURLを指す自分のサイトのリンクが原因である可能性があります。それを確認してください。

最悪の場合、あなたを無意識のプロキシとして使用している人かもしれません。 /forwardが要求されたときにサーバが何も処理していないことを確認し、疑わしいものがないかログを確認します。

リクエストが引き続き行われる場合はどうなりますか?

要求が停止するのに時間がかかることがあります。ロボットは毎回あなたのrobots.txtを要求しないので、更新するまで待つ必要があります。

しかし、最終的に停止しないと、悪意のあるボットであり、Googlebotのユーザーエージェントをなりすますことになります。 robots.txtはロボットにの指示を提供します。善良なボットは彼らに敬意を表しますが、悪意のあるロボットを遠ざけることはできません。それから、fail2banのような解決策が必要です。

+0

これはまさに私が探していたものです!この素晴らしい答えに感謝します。彼らは** different ** 'http:// vary_bad_link_not_for_children'(前の" http:// "を参照してください)の百であるので、私は彼らが私自身のリンクではないと確信しています。あなたの_unwitting proxy_ stuffをチェックします...それはApacheのルールかモジュールですか? – Baud

+0

ちょうど情報、 'sudo apache2ctl -M | grep proxy'は何も返しません – Baud

関連する問題