次のシナリオでは、正しいRobots.txtコマンドを説明してください。私はへのアクセスを許可したいRobots.txtサブフォルダを許可しますが親は許可しません
:
/ディレクトリ/サブディレクトリ/ ..
しかし、私はまた、上記の例外に耐えない/ディレクトリ/へのアクセスを制限したいと思います。
次のシナリオでは、正しいRobots.txtコマンドを説明してください。私はへのアクセスを許可したいRobots.txtサブフォルダを許可しますが親は許可しません
:
/ディレクトリ/サブディレクトリ/ ..
しかし、私はまた、上記の例外に耐えない/ディレクトリ/へのアクセスを制限したいと思います。
本当の公式の標準が存在しないことに注意してくださいと、任意のWebクローラは喜んであなたののrobots.txt
よるa Google groups postに無視することが、少なくともGooglebotが持つ以下の作品。
User-agent: Googlebot
Disallow: /directory/
Allow: /directory/subdirectory/
これらが本当にディレクトリの場合は、受け入れられた回答がおそらく最良の選択です。しかし、アプリケーションを作成していて、ディレクトリが動的に生成されたパス(a.k.aコンテキスト、ルートなど)である場合、robots.txtで定義する代わりにメタタグを使用することができます。これにより、異なるブラウザがどのようにサブディレクトリパスへのアクセスを解釈/優先順位付けするかを心配する必要がなくなるという利点があります。
あなたは、コード内でこのような何かを試してみてください:
if is_parent_directory_path
<meta name="robots" content="noindex, nofollow">
end
私はGoogleのロボットテスターを使用することをお勧めします。 Googleウェブマスターツールを利用する - https://support.google.com/webmasters/answer/6062598?hl=en
ツール内ですぐにURLを編集してテストすることができます。さらに、豊富なツールがあります。
良い点!これを2011年に公開したのかどうかは分かりませんが、WMTにとっては非常に便利です。 – QFDev
QFDEV Googleの検索結果で会社のサイトを上位にするために、私は本当に頑張っていますので、今日はロボットテスターを使用しなければなりませんでした。そして、「HTMLの改良」の下で私が見るのは、重複するタイトルとメタタグだけです。これは、同じページを2回(クエリ文字列)読み込んでいるためです。また何らかの理由で、ロボットが存在しないディレクトリをクロールしています。あなたの投稿を見つけました。これは、Google Web Masterツールのテスターに役立って気づき、変更を検証することを確認しました。あなたのスレッドに投稿することによって他の開発者を助けることができると思った。 – Moojjoo
サブディレクトリは動的に許可したいが、最初のレベルは許可しないようにしたい。AllowステートメントをAllow:/ directory/*/'に変更する。 – Duncanmoo
robots.txtによると、Wikipediaのエントリーによれば、 '許可'の指示は、互換性を最大限にするために 'Disallow'の前に置く必要があります(GoogleまたはBingのどちらも気にしません)。 – pelms