Wikileaksには珍しいrobots.txtがあります。私は何をクロールできますか？

私はWikileaks用のWebクローラーをどのように作成するかを理解するプロセスを進めています。Wikileaksには珍しいrobots.txtがあります。私は何をクロールできますか？

私はhttps://wikileaks.org/robots.txtになったとき、ホームページや何かを定義するような、無害な見た目のHTMLがたくさんあるように見えます。

何か間違っていますか？誰かが自分のロボットにこれを載せる理由はありますか？

2017-03-07 Umibozu

これはエラーです。おそらく、サーバーの設定ミスによって発生します。良いrobots.txtは、できるだけ簡単に、最も安いクローラーでさえ取得することができます。

2017-03-07 23:13:36

ありがとうございました。先にクロールに行く。 – Umibozu

On 2016-01-03は、ウィキリークスのrobots.txtだった：

User-Agent: * 
Disallow: /talk/

On 2016-01-05、それはプレーンテキストを務めたHTMLドキュメントでした。

in 2016とin 2017のすべてのクロールは、この同じ無効なコンテンツを表示しているようです（私はスポットチェックのみ行いました）。

正式に言えば、すべてが現在クロールできます。しかし、これは明らかに間違いであるため、最後のrobots.txtを尊重することは礼儀正しいでしょう。/talk/で始まるURLを除いてすべてがクロールされます。

2017-03-08 14:52:56 unor

答えて