robots.txt

    5

    4答えて

    私はクローラを作成しています。このためにrobots.txtパーサーを実装しています。私は標準ライブラリを使用しています。robotparserです。 robotparserが正しくパースないで、私はGoogleのrobots.txtを使用して、私のクローラをデバッグしていているようです。 (以下の例では、IPythonからです) In [1]: import robotparser In [

    6

    1答えて

    Googleカスタム検索エンジンを使用しているサイトがあります。私はGoogle CSEに自分のサイトをクロールさせたいが、それは通常のGoogle検索の結果から離れたいと思う。私はGoogleのカスタム検索エンジンのボットはまた、ロボットに従うことを持っていると思い、私はGoogleのCSEは、設定で User-agent: * Disallow:/ をクロールしたいページを指定したので、G

    1

    3答えて

    私はtxt応答を提供するlaravelを使用して動的ルートを作成しました。 ブラウザで動作しますが、googlebotにはrobots.txtというファイルはありません。 これは私が取得ヘッダーです:これは私の私のlaravelルートである Cache-Control →no-cache Connection →keep-alive Content-Disposition →inline; fil

    1

    1答えて

    私のプロジェクトでrobots.txtとsitemap.xmlと.htaccessを使用しています。私はGoogle Webマスターツールで提出するとsitemap.xmlのURLにアクセスできます。 のrobots.txt User-Agent: * Disallow: sitemap.xmlと <url> <loc>http://www.example.de/</loc>

    6

    1答えて

    プロダクションサーバーのテンプレートディレクトリにrobots.txtをアップロードしました。私は一般的なビューを使用しています。私は、ブラウザ上のrobots.txtを読み込む際 from django.views.generic import TemplateView (r'^robots\.txt$', TemplateView.as_view(template_name='robots

    0

    1答えて

    Joomlaのリダイレクトマネージャが見つかりました。 http://www.eldvigateli.com/услуги/механични-ремонти/смяна-лагери しかし、何も起こらなかっ: はこれに http://www.eldvigateli.com/електродвигатели-елин/новини-електродвигатели/334-смяна-лагер

    8

    1答えて

    たとえば、ユーザー入力からURL'sを作成する動的ページがあります。 例:www.XXXXXXX.com/browse < --------(ページの参照) ユーザがクエリを入力するたびに、より多くのページが生成されます。たとえば :www.XXXXXXX.com/browse/abcd < --------(ABCDという新しいページ) は今、私はGoogleがそれによって生成されたこの「閲覧」

    51

    4答えて

    私はGithubを使用して私のウェブサイトのテキストを保存していますが、問題はGithubのテキストもGoogleが索引付けしていることです。同じテキストが私のサイトとGithubの両方に表示されます。例えばthis searchトップヒットは私のサイトです。 2番目のヒットはGithubリポジトリです。 ソースが表示されてもGoogleがインデックスを作成しないようにします(重複するコンテンツに

    159

    1答えて

    robots.txtには、次のサイトマップファイルの相対URLを書き込むことはできますか? sitemap: /sitemap.ashx または私は次のように、サイトマップファイルの完全な(絶対)URLを使用する必要があります:、 私は新しいブログサービスを所有する:私は疑問に思うなぜ sitemap: http://subdomain.domain.com/sitemap.ashx ユー

    32

    4答えて

    私は現在、Express(Node.js)で構築されたアプリケーションで作業しています。異なる環境(開発、生産)で異なるrobots.txtを処理する最も賢い方法を知りたいと思います。 これは私が今持っているものですが、私は解決策で確信していない、私はそれが汚れていると思う: app.get '/robots.txt', (req, res) -> res.set 'Content-Ty