サイトのデフォルトページのみを許可するrobot.txtの設定方法

http://example.comにサイトがあるとします。私は本当にボットにホームページを見せてもらいたいですが、他のページはスパイダーにとって無意味なのでブロックする必要があります。言い換えればサイトのデフォルトページのみを許可するrobot.txtの設定方法

私は特定のクエリ文字列は、ホームページにパススルーできるようにすることができれば、それは素晴らしいことだ： http://example.com?okparam=true

2008-09-04 Boaz

だから、いくつかの研究の後、ここで私が見つけたものである - 主要な検索プロバイダーによって受け入れ可能な解決策：google、yahoo & MSN（私はここにバリデータを見つけることができる）：

User-Agent: * 
Disallow: /* 
Allow: /?okparam= 
Allow: /$

トリックが使用しています$はURLの終わりを示します。

2008-09-04 20:34:05 Boaz

基本のrobots.txt：

Disallow: /subdir/

I 「root以外のすべて」という表現を作成できるとは思わないでください。すべてのサブディレクトリを埋める必要があります。

クエリ文字列の制限はrobots.txtからもできません。バックグラウンドコード（処理部分）で行う必要があります。または、サーバーの書き換えルールを使用する必要があります。

2008-09-04 09:58:27 Biri

正しく覚えていれば、2番目の句は最初の句を上書きする必要があります。

2008-09-04 10:27:43 UnkwnTech

Google's Webmaster Toolsレポートでは、allowはallowよりも常に優先されるため、robots.txtファイルでこれを行う簡単な方法はありません。

noindex,nofollowMETAタグをホームページ以外のすべてのページのHTMLに挿入すると、これを達成できます。

2008-09-04 14:12:47 ceejayoz

私が知る限り、すべてのクローラがAllowタグをサポートしているわけではありません。考えられる解決策の1つは、ホームページ以外のすべてを別のフォルダに置き、そのフォルダを許可しないことです。

2008-09-04 14:18:33 hakan

答えて