ウェイバックマシン(archive.org)をブロックして自分のウェブサイトをアーカイブし、古いページをアーカイブから削除しようとしています。robots.txtを使用したウェイバックマシンはwww.domain.comでのみ動作し、domain.comでは動作しません。
私は(それはをhttpdocs /になりますので、私はPleskの上だ)、ルートディレクトリに配置され、私のrobots.txt、にこれを追加しました:
User-agent: ia_archiver
Disallow:/
今、奇妙なことです。..これはWWW.domain.comでのみ動作し、domain.comでは動作しません。私はwwwドメインを使用せず、すべてのwww要求はseoの理由でdomain.comにリダイレクトされます。したがって、www.domain.comはアーカイブからブロックされていますが、domain.comはまだアーカイブされています。
私に何か不足していますか?
アーカイブされていることをどのように知っていますか/テストしますか?更新されたrobots.txtにアクセスした後、ボットが文書にアクセスしたことをあなたのログで確認しましたか? – unor
これはバグのようです。ベータ版(https://web-beta.archive.org/)はこれを正しく処理します:www.domain.comとdomain.comの両方が、robots.txtによって指示されるとブロックされます。しかし、通常のウェイバックマシン(https://archive.org/web/)を使用している場合、www.domain.comはブロックされ、domain.comはブロックされます。これを解決できましたか? –