私はWikileaks用のWebクローラーをどのように作成するかを理解するプロセスを進めています。Wikileaksには珍しいrobots.txtがあります。私は何をクロールできますか?
私はhttps://wikileaks.org/robots.txtになったとき、ホームページや何かを定義するような、無害な見た目のHTMLがたくさんあるように見えます。
何か間違っていますか?誰かが自分のロボットにこれを載せる理由はありますか?
私はWikileaks用のWebクローラーをどのように作成するかを理解するプロセスを進めています。Wikileaksには珍しいrobots.txtがあります。私は何をクロールできますか?
私はhttps://wikileaks.org/robots.txtになったとき、ホームページや何かを定義するような、無害な見た目のHTMLがたくさんあるように見えます。
何か間違っていますか?誰かが自分のロボットにこれを載せる理由はありますか?
これはエラーです。おそらく、サーバーの設定ミスによって発生します。良いrobots.txtは、できるだけ簡単に、最も安いクローラーでさえ取得することができます。
On 2016-01-03は、ウィキリークスのrobots.txtだった:
User-Agent: * Disallow: /talk/
On 2016-01-05、それはプレーンテキストを務めたHTMLドキュメントでした。
in 2016とin 2017のすべてのクロールは、この同じ無効なコンテンツを表示しているようです(私はスポットチェックのみ行いました)。
正式に言えば、すべてが現在クロールできます。しかし、これは明らかに間違いであるため、最後のrobots.txtを尊重することは礼儀正しいでしょう。/talk/
で始まるURLを除いてすべてがクロールされます。
ありがとうございました。先にクロールに行く。 – Umibozu