:robot.txtのURLを特定のパラメータで無視しますか? Googleは、このようなURL無視するために、私は希望
http://www.mydomain.com/new-printers?dir=asc&order=price&p=3
パラメータのディレクトリを持っているすべてのURLを、順番や価格は無視されるべきですが、私はrobots.txtの経験を持っていけません。
あなたは、クエリ文字列を許可しない場合
:robot.txtのURLを特定のパラメータで無視しますか? Googleは、このようなURL無視するために、私は希望
http://www.mydomain.com/new-printers?dir=asc&order=price&p=3
パラメータのディレクトリを持っているすべてのURLを、順番や価格は無視されるべきですが、私はrobots.txtの経験を持っていけません。
あなたは、クエリ文字列を許可しない場合
はここソリューションです:
Disallow: /*?*
をしたり、クエリ文字列でより正確になりたい場合:
Disallow: /*?dir=*&order=*&p=*
また、ロボットに追加することができます。許可するURL。
Allow: /new-printer$
$
は、/new-printer
が許可されます。
さらに詳しい情報:
http://code.google.com/web/controlcrawlindex/docs/robots_txt.html
http://sanzon.wordpress.com/2008/04/29/advanced-usage-of-robotstxt-w-querystrings/
Googleウェブマスターツールを使用してWebサイトを登録します。そこにあなたのパラメータを扱う方法をGoogleに伝えることができます。
サイト設定] - > [URLはあなたがそれらのパラメータは、彼らがロボットのメタタグを経由して、インデックスから除外すべきであることを示している含まれているページを持っている必要があり
パラメータ。例えば
元の質問には特にGoogleが記載されていますが、Google WebマスターツールはGoogleをブロックするだけであることに注意することが重要です。 robots.txtファイルにDisallowルールを追加すると、他の検索エンジンにも対応できます。 –
真。また、robots.txtはGoogleのインデックスページを停止させるのではなく、コンテンツの閲覧を停止することも明確にする必要があります。最良の解決策は、ページ自体にロボットメタタグを使用することです。これはすべてのシステムでサポートされています。 – Tiggerito
あなたは、任意のURLがdir=
、order=
、またはp=
どこでもクエリ文字列に含まれている場合、それはブロックされますので、次の行
Disallow: /*?*dir=
Disallow: /*?*order=
Disallow: /*?*p=
とそれらの特定のクエリ文字列パラメータをブロックすることができます。
これは、上記の条件が満たされている限り、ページ全体がクロールされないことを意味しますか? –
これは新しいプリンタを許可しません。私は '/ new-printers?dir = *&order = *&p = *?'ではなく、 '/ new-printer'を許可したいので、クエリ文字列部分 –
を乱用したいだけですか? –
はい................ –