robots.txtを使用したウェイバックマシンはwww.domain.comでのみ動作し、domain.comでは動作しません。

ウェイバックマシン（archive.org）をブロックして自分のウェブサイトをアーカイブし、古いページをアーカイブから削除しようとしています。robots.txtを使用したウェイバックマシンはwww.domain.comでのみ動作し、domain.comでは動作しません。

私は（それはをhttpdocs /になりますので、私はPleskの上だ）、ルートディレクトリに配置され、私のrobots.txt、にこれを追加しました：

User-agent: ia_archiver 
Disallow:/

今、奇妙なことです。..これはWWW.domain.comでのみ動作し、domain.comでは動作しません。私はwwwドメインを使用せず、すべてのwww要求はseoの理由でdomain.comにリダイレクトされます。したがって、www.domain.comはアーカイブからブロックされていますが、domain.comはまだアーカイブされています。

私に何か不足していますか？

出典

2016-04-05 Rik

アーカイブされていることをどのように知っていますか/テストしますか？更新されたrobots.txtにアクセスした後、ボットが文書にアクセスしたことをあなたのログで確認しましたか？ – unor

これはバグのようです。ベータ版（https://web-beta.archive.org/）はこれを正しく処理します：www.domain.comとdomain.comの両方が、robots.txtによって指示されるとブロックされます。しかし、通常のウェイバックマシン（https://archive.org/web/）を使用している場合、www.domain.comはブロックされ、domain.comはブロックされます。これを解決できましたか？ –

同期の問題と思われます。

www.domain.comはrobots.txtによって指示された直後にブロックされますが、domain.comは除外を尊重する前に数時間から数日かかることがあります。

ベータ版（https://web-beta.archive.org/）では正しく処理されます。www.domain.comとdomain.comの両方がすぐにブロックされます。

出典

2017-02-23 08:33:01

robots.txtを使用したウェイバックマシンはwww.domain.comでのみ動作し、domain.comでは動作しません。

答えて

関連する問題