robots.txt

5熱

4答えて

私はクローラを作成しています。このためにrobots.txtパーサーを実装しています。私は標準ライブラリを使用しています。robotparserです。 robotparserが正しくパースないで、私はGoogleのrobots.txtを使用して、私のクローラをデバッグしていているようです。（以下の例では、IPythonからです） In [1]: import robotparser In [

6熱

1答えて

Google CSEのみを許可し、ROBOTS.txtのGoogle標準検索を拒否する

Googleカスタム検索エンジンを使用しているサイトがあります。私はGoogle CSEに自分のサイトをクロールさせたいが、それは通常のGoogle検索の結果から離れたいと思う。私はGoogleのカスタム検索エンジンのボットはまた、ロボットに従うことを持っていると思い、私はGoogleのCSEは、設定で User-agent: * Disallow:/ をクロールしたいページを指定したので、G

1熱

3答えて

Googlebotが動的robots.txtを認識しない

私はtxt応答を提供するlaravelを使用して動的ルートを作成しました。ブラウザで動作しますが、googlebotにはrobots.txtというファイルはありません。これは私が取得ヘッダーです：これは私の私のlaravelルートである Cache-Control →no-cache Connection →keep-alive Content-Disposition →inline; fil

1熱

1答えて

htaccessを正しく使用してリダイレクトする

私のプロジェクトでrobots.txtとsitemap.xmlと.htaccessを使用しています。私はGoogle Webマスターツールで提出するとsitemap.xmlのURLにアクセスできます。のrobots.txt User-Agent: * Disallow: sitemap.xmlと <url> <loc>http://www.example.de/</loc>

6熱

1答えて

Django - ジェネリックビューでRobots.txtをロード

プロダクションサーバーのテンプレートディレクトリにrobots.txtをアップロードしました。私は一般的なビューを使用しています。私は、ブラウザ上のrobots.txtを読み込む際 from django.views.generic import TemplateView (r'^robots\.txt$', TemplateView.as_view(template_name='robots

0熱

1答えて

Joomlaのリダイレクトマネージャーは動作しませんか？

Joomlaのリダイレクトマネージャが見つかりました。 http://www.eldvigateli.com/услуги/механични-ремонти/смяна-лагери しかし、何も起こらなかっ：はこれに http://www.eldvigateli.com/електродвигатели-елин/новини-електродвигатели/334-смяна-лагер

8熱

1答えて

特定のページディレクトリは許可しませんが、そのページ自体は許可しません

たとえば、ユーザー入力からURL'sを作成する動的ページがあります。例：www.XXXXXXX.com/browse < --------（ページの参照）ユーザがクエリを入力するたびに、より多くのページが生成されます。たとえば：www.XXXXXXX.com/browse/abcd < --------（ABCDという新しいページ）は今、私はGoogleがそれによって生成されたこの「閲覧」

51熱

4答えて

私のGithubリポジトリのインデックス作成を中止する方法

私はGithubを使用して私のウェブサイトのテキストを保存していますが、問題はGithubのテキストもGoogleが索引付けしていることです。同じテキストが私のサイトとGithubの両方に表示されます。例えばthis searchトップヒットは私のサイトです。 2番目のヒットはGithubリポジトリです。ソースが表示されてもGoogleがインデックスを作成しないようにします（重複するコンテンツに

159熱

1答えて

robots.txtに相対サイトマップURLを使用できますか？

robots.txtには、次のサイトマップファイルの相対URLを書き込むことはできますか？ sitemap: /sitemap.ashx または私は次のように、サイトマップファイルの完全な（絶対）URLを使用する必要があります：、私は新しいブログサービスを所有する：私は疑問に思うなぜ sitemap: http://subdomain.domain.com/sitemap.ashx ユー

32熱

4答えて

Expressでrobots.txtを処理する最もスマートな方法は何ですか？

私は現在、Express（Node.js）で構築されたアプリケーションで作業しています。異なる環境（開発、生産）で異なるrobots.txtを処理する最も賢い方法を知りたいと思います。これは私が今持っているものですが、私は解決策で確信していない、私はそれが汚れていると思う： app.get '/robots.txt', (req, res) -> res.set 'Content-Ty