2012-02-01 16 views
14

検索エンジンが私のウェブサイト全体をクロールしないようにしたい。検索エンジンがウェブサイト全体をクロールするのを止めるには?

私は会社のメンバーが使用するWebアプリケーションを持っています。これは、会社の従業員がアクセスできるようにWebサーバー上でホストされています。誰もそれを必要としないか、またはそれが有用であるとは誰も(一般の)誰も認めません。

私は、すべての検索エンジンのボット/クローラーによるアクセスを完全に削除することによって、不正アクセスを防止し、防止するために、別のセキュリティレイヤー(In Theory)を追加したいと考えています。 Googleが検索可能にするためにGoogleのサイトにインデックスを付けることは、ビジネスの観点からは無意味であり、ハッカーが最初にそのサイトを見つけてハックしようとする別の方法を追加するだけです。

私はrobots.txtの中で、検索エンジンに特定のディレクトリをクロールしないように指示できます。

クロールしないディレクトリをすべて列挙することなく、サイト全体をクロールしないようにボットに指示することはできますか?

このベストはrobots.txtで行われますか、それとも.htaccessや他の方が良いですか?

+1

あなたのウェブサイトにもありません検索エンジンのインデックスサイト場合は黒い帽子のハッカーによって到達可能です。ブラックハットのハッカーはあなたを見つけるためにGoogle検索を行っていません。彼らはウェブをクロールし、 'robots.txt'を無視する独自のボットネットを持っています。また、従業員がGoogle検索であなたのウェブサイトを見つけることをより困難にすることによって、インターネットに害を及ぼしています。あなたがこれを行い、あなたのウェブサイトをより安全にしていないとき、Googleはそれを好まない。プラスGoogleは、お客様を引き込むことによってお客様を支援します。それはあなたの1インチの刃を取るTSAのようなものです。彼らは物事をより安全にしているわけではなく、みんなを悩ませています。 –

答えて

11

robots.txtファイルで処理するのが最も効果的です。これは、ファイルを尊重するボットの場合のみです。

あなたのサイトのルートディレクトリにrobots.txtにこれを追加し、サイト全体をブロックするには:

User-agent: * 
Disallow:/

皆のために自分のサイトへのアクセスを制限するには、.htaccessが良いですが、アクセスルールを定義する必要があります、例えばIPアドレスである。

以下

は、あなたの会社のIPからあなたの人々を除いて全員を制限する.htaccessルールです:検索エンジンのインデックスのうちのサイトを保つためにrobots.txtを使用し

Order allow,deny 
# Enter your companies IP address here 
Allow from 255.1.1.1 
Deny from all 
+0

robots.txtの情報は本当に役に立ちます。会社のIP範囲のみを許可するのが大好きですが、アプリは道路上の担当者によって使用されるため、IPは常に変化する可能性があります。確かにそれを行う。ありがとうございます:-) –

+0

人がウェブサイトにアクセスする必要がある理由がないため、不正なボットをブロックする方法もあります。たとえば、それらをボットであると認識し、ユーザーではなくブロックします。 –

+0

@IainSimpsonあなたはuserAgentに基づいて 'bots'を否定しようとする可能性がありますが、それは偽装するのが簡単で、悪いボットが自分自身をボットと認識しない可能性が非常に高いです。 –

7

one minor and little-known problemがあります。誰もがこれまでにいずれかからあなたのサイトにリンクしている場合Googleがインデックスを作成したページ(たとえGoogleがあなたのサイトを見つけたとしても、robots.txtかどうか)、Google may still index the linkを検索して、リンク先のページを取得できない場合でも検索結果の一部として表示します。

これはあなたのための問題になる可能性がある場合は、解決策はない使用robots.txtにあるが、代わりにあなたのサイト上のすべてのページに値noindex,nofollowrobots metaタグを含めること。あなたもmod_headersX-Robots-Tag HTTPヘッダーを使用して.htaccessファイルでこれを行うことができます。

Header set X-Robots-Tag noindex,nofollow 

このディレクティブは、それが画像のような非HTMLページなど、に適用されるすべてのページにヘッダX-Robots-Tag: noindex,nofollowを追加します。もちろん、あなただけ(それは古い標準だし、そうおそらく、より広くサポートされている)場合には、あまりにも対応するHTMLのmetaタグを含めることができます:

<meta name="robots" content="noindex,nofollow" /> 

注意あなたがこれを行う場合、Googlebotはまだしようとすることヘッダ/メタタグが表示される前にページを取得する必要があるため、サイトで見つかったリンクをクロールします。もちろん、アクセスログを見て、Googleがあなたのサイトへのリンクを見つけたかどうかを調べることができるので、バグではなくこの機能をよく考えている人もいます。

どのような場合でも、「秘密」サイトの秘密を非常に長く保つのは難しいことに留意してください。時間が経つにつれて、あなたのユーザーの1人が誤ってサイトへのリンクを漏らす確率は100%に達し、誰かがサイトを探すことに興味があると思われる理由があれば、そのように思うべきです。したがって、をサイトに適切なアクセスコントロールを置いて、ソフトウェアを最新の状態に保ち、定期的なセキュリティチェックを実行するようにしてください。

+3

これはあなたのセキュリティ"泥棒、この家を見ないでください"と書かれたドア/窓にサインを入れて家に帰る。盗賊は言う: "笑"。 –

+0

これは本当に「セキュリティ」に関するものではなく、賢明な検索結果です。私は初期のWikiを書いた.Googleがそれを見つけたら直ちに、すべてのページ履歴、以前のバージョンとの違い、「編集」ページが索引付けされた。 Googleの履歴から「編集」ページと「履歴」ページを削除しても、より安全にはなりませんが、Googleからその迷惑メールを守り、ユーザーが適切な場所に到着できるようになります。 – Galax

0

セキュリティが懸念され、IPアドレスにロックダウンできない場合は、ユーザがサイトにアクセスするために何らかの認証を要求する必要があります。

これは、認証されていないユーザー(google、bot、person-who-stumbled-upon-a-link)があなたのページにアクセスできなくなることを意味します。

ウェブサイト自体に焼くか、HTTP基本認証を使用することができます。

https://www.httpwatch.com/httpgallery/authentication/

関連する問題