私はPythonのrobotparserをしばらく使用していますが、うまくいきます。私は非常に寛容探してrobots.txtファイルをウェブサイトに出会っ今朝:RobotParserがこの結果をブロックするのはなぜですか?
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
しかし、何らかの理由で、パーサはすべてのURLがブロックされていると考えています。
import robotparser
rp = robotparser.RobotFileParser("http://newenglandreptileshop.com/robots.txt")
rp.read()
# Try any URL
rp.can_fetch("*", "http://www.newenglandreptileshop.com")
False
拒否されない限り、すべてのパスのクロールは許可されます。私は別のrobots.txtパーサーを使用して私の前提を確認し、このサーバー上のほとんどのURLにアクセスできるはずであることに同意しました。そして、Googleにもインデックスが付けられています。
Pythonライブラリのバグのようです。どうしたの?
私はRobotParserを知りません、ちょうどアイデア:あなたは同じホストを使用する場合、同じ問題?あなたは 'newenglandreptileshop.com'(' 'www''なし)、' 'www.newenglandreptileshop.com''(' 'www'')を使います。 – unor
良い目。残念ながらそれは役に立たなかった。 –