を禁止するためにどのように私は/?Q =すべての動的URLのrobots.txt内のすべての動的URLを禁止する方法のrobots.txt
答えて
あなたの質問への答えは、私が見つけることができるのrobots.txtで最高(現在アクセス)ソースがWikipediaである
Disallow: /?q=
を使用することです。 (確かに最終的な情報源はhttp://www.robotstxt.orgですが、現時点ではサイトがダウンしています)
標準では、2つのフィールドしか定義されていません。 UserAgent:とDisallow: Disallow:フィールドには明示的なワイルドカードは使用できませんが、各 "disallowed"パスは実際にはパスの接頭辞です。すなわち、指定された値で始まる任意のパスに一致する。
Allow:フィールドは非標準的な拡張であり、Disallowの明示的なワイルドカードのサポートは非標準の拡張です。これらを使用する場合、(正当な)Webクローラーがそれらを理解することを期待する権利はありません。
これは、「スマート」または「ダム」であるクローラの問題ではありません。標準準拠および相互運用性に関するものです。たとえば、「Disallow:」の明示的なワイルドカード文字で「スマート」なことをしたWebクローラは、文字通り解釈されることを意図したrobots.txtファイル(仮想の)には悪いでしょう。
ポールが言ったようで始まるすべてのものを許可しないようにしたい
Disallow: /?q=admin/
Disallow: /?q=aggregator/
Disallow: /?q=comment/reply/
Disallow: /?q=contact/
Disallow: /?q=logout/
Disallow: /?q=node/add/
Disallow: /?q=search/
Disallow: /?q=user/password/
Disallow: /?q=user/register/
Disallow: /?q=user/login/
多くのrobots.txtインタプリタはあまりにも明るくないので、あなたがそれらを使用しようとするときにパス内のワイルドカードを解釈しないかもしれません。
しかし、いくつかのクローラは、さまざまなURLのリンク上の無限ループに巻き込まれる可能性があるため、動的ページを自分でスキップしようとします。私はあなたがこのような動的パスにアクセスするのに苦労している勇敢なクローラに直面しているので、この質問をしていると仮定しています。
特定のクローラに問題がある場合は、robots.txtの容量を検索して特定のrobots.txtセクションを指定することで、クローラの動作を具体的に調べることができます。
通常、ダイナミックページへのアクセスを許可したくない場合は、robots.txtデザインを再考することをおすすめします。
動的パラメータ処理 "ページ"は、特定のディレクトリまたは特定のディレクトリの下にあることがよくあります。このため、通常はDisallow:/ cgi-binや/ appとするのが普通とても簡単です。
あなたの場合、パラメータを扱う領域にルートをマップしたようです。あなたの許可リストは、特に何クローラすべきインデックスを追加して、禁止するリストを上書きします。この道を
User-agent: *
Allow: /index.html
Allow: /offices
Allow: /static
Disallow:/
:あなたはrobots.txtののロジックを逆にして何かを言いたいかもしれません。すべてのクローラが等しく作成されているわけではなく、後でrobots.txtを修正して、不正な動作をするクローラに対して特定のセクションを追加したい場合があります。
@Grookoo: "Allow:"は非標準です。それを無視するクローラは、不正行為ではありません。単にrobots.txtの仕様に準拠しています。 –
- 1. robots.txtが禁止する方法?
- 2. robots.txtの$をエスケープする方法ディレクティブを禁止しますか?
- 3. Robots.txt正規表現のパスを禁止する
- 4. 私はスタイルのURLでサイトを持っているrobots.txtの
- 5. simpleCart.js Javascript内の動的URL
- 6. robots.txtを使用している検索エンジンのURLを100ブロックブロック
- 7. Robots.txtがすべてのhttps://ページへのブロックアクセス
- 8. 動的URLを静的URLにリダイレクトする方法
- 9. robots.txtが特定のURLパラメータへのアクセスを拒否する
- 10. robots.txtの動的ページを許可しない
- 11. /res/raw内のすべてのメディアファイルを動的に取得する方法は?
- 12. すべてのZuulプロキシリクエストを単一のURLに動的に再ルーティング
- 13. URLがrobots.txtによってブロックされています
- 14. すべてのビューの動的ポップアップメニュー
- 15. スコープ内のすべての関数を動的に返す方法は?
- 16. djangoの動的URL
- 17. ブートストラップモードの動的URL
- 18. Coldfusionの動的URL
- 19. Djangoの動的URL
- 20. XMLhttprequestの動的URL
- 21. robots.txtの具体的な除外
- 22. 動的URLの動的URLの書き換えとリダイレクト
- 23. 方法:PHPの動的URLチェック
- 24. `nofollow、noindex`をrobots.txtのすべてのページに追加するには?
- 25. LaravelすべてのURLがローカルで完璧に動作し、URL
- 26. robots.txtファイルを設定して2つのディレクトリを除くすべてのファイルをブロックする方法
- 27. Pug(Jade)テンプレート内のタグの動的URL
- 28. htaccessを使用してホームページの動的URLを静的ホームページURLにリダイレクトする方法はありますか?
- 29. robots.txtの
- 30. ウェブクローラがrobots.txt URLまたはタグに従っていますか
[this](http://smackdown.blogsblogsblogs.com/2008/05/23/googlebot-creates-pages-instead-of-simply-indexing-them-new-form-crawling-algo-goes -bad /)、検索ページを許可しないことは本当に良いアイデアかもしれません。したがって、この質問は非常に関連しており、閉じてはいけません。 –