Pythonのurlibモジュールのrobotparser
を使用して、Webページをダウンロードできるかどうかを判断しています。しかし、私がアクセスしている1つのサイトでは、デフォルトのユーザーエージェントを介してrobot.txtファイルにアクセスすると403エラーが返されますが、たとえば、私のユーザーエージェント文字列でのリクエストを介してダウンロードされました。 (このサイトでは、リクエストでアクセスされたときに403が表示され、デフォルトのユーザーエージェントがパッケージされています。ロボット/ファイルをrobot.txtファイルに追加するのではなく、共通/汎用ユーザーエージェント文字列をブロックしているだけです)。Pythonでrobotparserで使用されるユーザーエージェントを変更します
とにかく、rootparserモジュールのユーザーエージェントを変更することはできますか?あるいは、別々にダウンロードされたrobot.txtファイルをロードするには?