2011-01-21 5 views
2

私はwordpressを使用してウェブサイトを作成しました。robots.txtを使用して/?param = Xをブロックする

www.url.com/?cat=1

今すぐこれらのページは存在せず、削除依頼Googleはrobots.txtの

上でそれらをブロックするように私に尋ねる作るために:グーグルは、以下のようなページをインデックス化

私が使用する必要があります。

User-Agent: * 
Disallow: /?cat= 

または

User-Agent: * 
Disallow: /?cat=* 

私のrobots.txtファイルはいくつかを見ます

User-agent: * 
Disallow: /cgi-bin 
Disallow: /wp-admin 
Disallow: /wp-includes 
Disallow: /wp-content 
Disallow: /wp-login.php 
Disallow: /wp-register.php 
Disallow: /author 
Disallow: /?cat= 
Sitemap: http://url.com/sitemap.xml.gz 

これはうまく見えるか、検索エンジンに問題が発生する可能性がありますか? Allow:/ Disallow:と一緒に使うべきですか?

+0

許可するカテゴリがない限り、ここで許可を使用する必要はありません。たとえば、 '/?cat ='で始まるものはすべて許可しません。しかし、 'Allow:/?cat = something'のように特定のカテゴリを許可したいかもしれません。 –

答えて

2

私は は疑問符が含まれていることをすべてのURLへのアクセスをブロックするには、この実際に

となるだろう(?)( より具体的に、どの 続い ドメイン名で始まる任意のURL、文字列、疑問符が続き、 )は任意の文字列が続く:

User-agent: Googlebot 
Disallow: /*? 

だから私は実際に行くだろう:

一般に
User-agent: Googlebot 
Disallow: /*?cat= 

Resourse (Under patttern matching)

0

、あなたはは削除されたコンテンツを処理するために、robots.txtのディレクティブを使用しないでください。検索エンジンがクロールできない場合、検索エンジンが削除されているかどうかを知ることはできず、これらのURLの索引付けを継続したり、索引付けを開始することさえできます。適切な解決策は、サイトがこれらのURLの404(または410)HTTP結果コードを返すことを確認することです。その後、時間の経過とともに自動的に削除されます。

Googleの緊急のURL removal toolsを使用する場合は、これらのURLを個別に提出する必要があるため、robots.txtを使用して何も取得できません。

0

検索エンジンがそれをクロールできない場合、検索エンジンが削除されているかどうかを判断できず、これらのURLの索引付けを継続したり、索引付けを開始することさえできます。

関連する問題