2011-07-18 8 views

答えて

6

robots.txtファイルを使用しますhttp://www.google.com/support/webmasters/bin/answer.py?answer=156449別にパスワード保護をあなたのサイトに、あなたはこれらの行を追加することができますから

+1

また、サイト全体をパスワードで保護します。 – Chirag

+0

このリンクによれば、「他のページがあなたのページを指している可能性があり、あなたのページがそのような方法でインデックスを取得してロボットを避けられるため、あなたのウェブページをGoogle検索結果から隠す手段としてrobots.txtを使用すべきではありません.txtファイル。あなたのページを検索結果からブロックする場合は、パスワード保護やnoindexタグやディレクティブなどの別の方法を使用してください。 https://developers.google.com/search/reference/robots_meta_tagをご覧ください。 –

1

robots.txtへ:

User-agent: * 
Disallow:/

これしないの非表示サイトではなく、むしろをボットにコンテンツをスパイダーしないように指示します。

-1

robots.txtファイルを使用します。このコンテンツを持つサイトのルートにファイルを配置します。

User-agent: * 
Disallow:/
2

を見てくださいあなたは何とかrobots.txtを使用してリストされているサイトを減らすことができます。ただし、これはクローラの「好意」に依存しますが(一部のスパムロボットは、許可しない場所を明示的に表示します)。

唯一安全で信頼性の高いサイトリストを持たない唯一の方法は、悲しいことですがインターネットに掲載していません。

サイトにリンクしていないだけでは機能しません。クローラは、ブラウザの参照元やドメイン登録者など、さまざまな情報源から情報を取得します。だから、目に見えないようにするためには、あなたのサイトを訪問せず、ドメインを登録しないでください(IPアドレスを介してアクセスするだけです)。
そして、あなたがIPアドレスに基づいてあなたのウェブサーバを走らせれば、あなたはまだすべてのスパムロボットがランダムなアドレスを調べているのです。それはしばらく時間がかかりますが、彼らはあなたを見つけるでしょう。

あなたのサイトを保護するパスワードが機能し、効果的にアクセスできなくなります。 (それはどういうことか分かりませんが)たとえば、Googleには何千ものACM論文が掲載されていますが、アカウントやログインなしでは見ることができません。

1

すべての検索エンジンを拒否するrobots.txtを使用してください。 彼らはすべての点は、robots.txtのように定期的にサーバーのログをチェックして、疑いのあるロボット/クローラの範囲から否定しない:

http://httpd.apache.org/docs/2.2/howto/access.html

0

最も適切な検索エンジンは、ウェブサイトやインデックス、それらにボットやクローラを使用しています。あなたは可能性がありますRobot File method

関連する問題