2012-04-13 12 views
3

/node/patternを持つURLのインデックスを作成しないようにするにはどうすればよいですか? 次のとおりですが、私は、Googleが依然として /node /を持つ多くのURLにインデックスを付けていることに気付きました。 www.mywebsite.com/node/123/32robots.txt - "/ node /"を含むURLを除外します

のDisallow: のDisallow:/ノード/

ことがある/ノード/ が、私は以下のようなものを書くべき任意のURLをインデックスしない状態のものがあります:/ノード/ *

更新: 本当の問題があるにもかかわらず: のDisallow:/ノード/ robots.txtの中で、GoogleはこのURLたとえば下のページをインデックス化していますwww.mywebsite.com/node/123/32

/node /は物理的なディレクトリではありませんが、これはdrupal 6のコンテンツの表示方法です。これは私の問題だと思います。ノードはディレクトリではなく、単にURLの一部ですコンテンツのdrupalによって生成されていますが、どうすればこの問題を処理できますか?これは動作しますか?

のDisallow:/ *ノード

おかげ

答えて

0

Disallow: /node/*は、あなたが何をしたいのかを正確です。検索エンジンはrobots.txt表記でワイルドカードをサポートし、*文字は「任意の文字」を意味します。詳細については、Google's notes on robots.txtを参照してください。

更新

確認してください検索エンジンはディレクトリの外にとどまるようにする別の方法、およびその下のすべてのディレクトリは、ロボットHTTPヘッダーでそれらをブロックすることです。これはあなたのnodeディレクトリ内のhtaccessファイルに次のように配置することにより、行うことができます。

Header set x-robots-tag: noindex 
+0

robots.txtに関するGoogleのメモ: ディレクトリとその中のすべてをブロックするには、ディレクトリ名の後にスラッシュを付けます。 のDisallow:/ジャンクディレクトリ/ それは言っていない: のDisallow:/ジャンク・ディレクトリ/ * をので、私はすでに正しいディレクティブ のDisallow書いた場合:それは内部の私のページがインデックス化されている理由を、次に/ノード/ を?例えばwww.mywebsite.com/node/123/32 – practitioner

+0

ページが索引付けされる前または後にrobots.txtファイルを追加しましたか? Robots.txtは、時折、知られていない理由で検索エンジンによって尊重されないことが知られています。私は非常にうまく動作する別の方法を含めるように私の答えを更新しました。 –

+0

質問を更新しました。再度確認してください – practitioner

5

Disallow: /node/(ホスト後)/node/で始まる任意のURLを禁止します。アスタリスクは必須ではありません。

www.mysite.com/node/bar.htmlはブロックされますが、www.mysite.com/foo/node/bar.htmlはブロックされません。

あなたが/node/が含まれているものをブロックしたい場合は、Googlebotが最大7日間のrobots.txtをキャッシュできるようにしてもDisallow: */node/

ノートを書く必要があります。したがって、今日あなたのrobots.txtに変更を加えると、Googlebotがrobots.txtのコピーを更新する1週間前になる可能性があります。その間、キャッシュされたコピーを使用します。

+0

残念ながら、次のテスターはこの構文でエラーを出しました:http://www.searchenginepromotionhelp.com/m/robots-text-tester/robots-checker.php * /で始まる必要があると言われています* このツールの正確さはわかりません。してください – practitioner

+0

あなたは、 '/ node /'で始まるものについては 'Disallow:/ node /'、どこかに '/ node /'が埋め込まれているものについては 'Disallow:/ */node /'それ以外の場合は –

+0

how about: Disallow:/ node/ と Disallow:/ node/* 後で/ node /内にあるものはすべて意味していますか? – practitioner

0

あなたのオリジナルDisallowは問題ありませんでした。ジム・ミッシェルのコメントに注目が集まり、Googlebotが更新されたrobots.txtを取得して関連するページのインデックスを解除するだけの時間がかかったのかどうか疑問に思います。

カップル追加思考:

あなたのページのURLを使用すると、robots.txtの中にそれを含めましても、Googleの検索結果に表示されることがあります。参照:http://support.google.com/webmasters/bin/answer.py?hl=en&answer=156449( "... robots.txtによってブロックされたページのコンテンツをGoogleがクロールしたりインデックスを作成したりすることはありませんが、ウェブ上の他のページで検索された場合でもインデックスが作成されます。多くの人にとって、これは直感的ではありません。

第2に、Googleウェブマスターツール(https://www.google.com/webmasters/tools/home?hl=en)でサイトの所有権を確認し、健康 - > "Fetch as Google"などのツールを使用して、ページの取得に関連するリアルタイム診断を確認することを強くおすすめします。 (その結果、robots.txtはクロールを防止していますか?)

私は使っていませんが、Bingには同様のツールがあります:http://www.bing.com/webmaster/help/fetch-as-bingbot-fe18fa0d。 Google、Bingなどが提供する診断ツールを使用してリアルタイムの診断をサイトで実行することは価値が高いようです。

この質問は少し古いので、元の問題を解決していただければ幸いです。

関連する問題