2017-03-07 4 views
3

私はWikileaks用のWebクローラーをどのように作成するかを理解するプロセスを進めています。Wikileaksには珍しいrobots.txtがあります。私は何をクロールできますか?

私はhttps://wikileaks.org/robots.txtになったとき、ホームページや何かを定義するような、無害な見た目のHTMLがたくさんあるように見えます。

何か間違っていますか?誰かが自分のロボットにこれを載せる理由はありますか?

答えて

1

これはエラーです。おそらく、サーバーの設定ミスによって発生します。良いrobots.txtは、できるだけ簡単に、最も安いクローラーでさえ取得することができます。

+0

ありがとうございました。先にクロールに行く。 – Umibozu

3

On 2016-01-03は、ウィキリークスのrobots.txtだった:

User-Agent: * 
Disallow: /talk/ 

On 2016-01-05、それはプレーンテキストを務めたHTMLドキュメントでした。

in 2016in 2017のすべてのクロールは、この同じ無効なコンテンツを表示しているようです(私はスポットチェックのみ行いました)。

正式に言えば、すべてが現在クロールできます。しかし、これは明らかに間違いであるため、最後のrobots.txtを尊重することは礼儀正しいでしょう。/talk/で始まるURLを除いてすべてがクロールされます。

関連する問題