robots.txt

    0

    1答えて

    今日はrobots.txtの標準をサポートするために、自分のWebクローラを向上しながら、私はhttp://www.w3schools.com/robots.txt User-agent: Mediapartners-Google Disallow: に次のコードに出くわしたこの構文が正しいですか?目的に応じて、Disallow: /またはAllow: /にする必要はありませんか? Allo

    0

    1答えて

    ウェイバックマシン(archive.org)をブロックして自分のウェブサイトをアーカイブし、古いページをアーカイブから削除しようとしています。 私は(それはをhttpdocs /になりますので、私はPleskの上だ)、ルートディレクトリに配置され、私のrobots.txt、にこれを追加しました: User-agent: ia_archiver Disallow:/ 今、奇妙なことです。..これ

    -2

    1答えて

    に許可し、禁止 http://www.robotstxt.org/orig.htmlは言う: のDisallowを:/ヘルプには、両方の/help.htmlを禁止し、今 を/help/index.html、google.com/robots。リストTXT:robotparser.pyを実行する際に Disallow: /search Allow: /search/about 、それはグーグル

    0

    2答えて

    私たちのサイトはhttpsだけを使用しているので、何でもhttpがhttpsを使用するよう強制されます。しかし、まだHTTP経由で彼らの方法を強制したいいくつかのボットがあります。 私は検索しましたが、これを行う簡単な方法が見つかりませんでした。 だから私の質問は、私が唯一

    0

    1答えて

    私はgoogle.com.robots.txtでReppyをテストしていましたが、特定のエントリでは少しばかげてしまいました。 以下は、 Disallow: /alerts/です。ここではFalseを指定する必要があります。 Allow: /alerts/$は、ここでTrueを取得する必要があります。 第1回はTrue、第2回はFalseになります。 しかし、私は残りのエントリで正しい結果を得まし

    0

    1答えて

    sitecoreプロジェクトでマルチサイトソリューションを実装しました。 Googleではプロダクションサーバーの特定のディレクトリのクロールを防止するため、robots.txtをウェブサイトのルートディレクトリに配置しています。 ここでもう1つのウェブサイトbeta.example.comをプロダクションサーバーにホストしますが、このサブドメインのクロールを避けたいと考えています。 これはマルチ

    0

    1答えて

    私は最近、Zapというツールを使ってWebアプリケーションのセキュリティ上の脆弱性をチェックし始めました。それを実行した後、私はwebappにrobots.txtも含めなければなりませんでした。 ツールはwebapp(https://localhost:8080)のルートディレクトリにあるファイルを検索していますが、そこにファイルが表示されていますが、「ファイルが見つかりません」というエラーが表示

    1

    1答えて

    に1ページを禁止しようとすると、私はrobots.txtのコードは、それが User-Agent: * Disallow: Disallow: /form.aspx であることを使用していますが、form.aspxがprocessfolderであると私URLは のように表示されます。www.yoursite.com/process/form.aspx form.aspxをrobots.tx

    0

    1答えて

    不許可行に複数のURIが含まれているとどうなりますか?例: Disallow:/tmp/ 私は間違ってホワイトスペースを導入しました。 ウェブブラウザがこれに対処する方法には標準的な方法がありますか?彼らは全体のラインを無視するか、単に二URIを無視して、それが好きな扱いでください: Disallow:/

    0

    1答えて

    Google Webmaster ToolsでFetch and Renderツールを使用すると、Twitterのコンバージョントラッキングを追加したため、 Twitterの制限付きrobots.txtを指しています。私はうまくいけば、Twitterのjavascriptファイルにrel = "nofolow"を追加しようとしましたが、googleon/googleoffタグでコメントアウトしてみ