は、Pythonでurllib2を使用しています。サーバーによって検出され拒否されている

このコードは正常に動作し、htmlを読み込んでいました。その後、サイトはread（）のデータの提供を停止しました。エラーコードはありません。は、Pythonでurllib2を使用しています。サーバーによって検出され拒否されている

Webサーバーが異常な何かを検出したためです。（私はユーザエージェントを設定する前にエラー403：悪い振舞いを持っていた）

フラグを立てるような顕著なシグネチャがありますか？別のライブラリに切り替えるのが助かりますか？

私は疑わしいことはしていません。このライブラリを使ってページを読んだり、lynxブラウザを使ったりしても、私の動作に違いは見られません。あなたのprint文を考える

import urllib2 
opener = urllib2.build_opener() 
opener.addheaders = [('User-agent', 'Mozilla/5.0')] 
search_url='http://www.google.com/?search=stackoverflow"' 
raw = opener.open(search_url) 
print raw.headers 
print raw.read()

出典

2012-05-07 Morgan

多くのリクエストをすばやく送信していますか？サイトによってはそれを検出することができます。 –

Googleは、多数のリクエストをすばやく連続して行っている場合は、結果を提供することを拒否しますが、通常、その場合はエラーページを提供していたと思います。 'ヘッダー 'も空ですか？ –

robots.txtを尊重することを検討しましたか？ – geoffspear

、私はあなたが関係なく、ユーザーエージェントを設定する、私は私のシステムで同じことを実行し、それが動作Python2.x 上でこれをやっていると仮定します。デビッド・ロビンソンがここで何かするべきかもしれないと示唆したもの。別のノートで

私が個人的に使用している、次の例では、複数のユースケースの上に、

import urllib2 

req = urllib2.Request('http://www.voidspace.org.uk') 
response = urllib2.urlopen(req) 
the_page = response.read()

複数回スニペットや、あなたのエラーが発生しましたことはありません。

出典

2012-05-07 16:32:22 subiet

私は1時間のスペースで同じページで約10回読みました。ヘッダーは空ではありません。手がかりを探すにはどうすればいいですか？ – Morgan

可能であれば、別の場所/ ISPから同じことを行うことをお勧めします。特定のIP範囲で問題が発生することがよくあります。あなただけのため、半時間で100回のリクエストでも問題にはなりません。 – subiet

lynxブラウザまたはChromeブラウザから同じページを正常に取得できます。 Googleはこのスクリプトを間違いなく嫌う。私はステータスコード200成功btwを取得します。 – Morgan

検索エンジンをクロールするためにplain urllib2の代わりにmechanizeを使用してみてください。ブラウザの動作をよりよく模倣します。

出典

2012-05-08 11:37:51 marbdq

は、Pythonでurllib2を使用しています。サーバーによって検出され拒否されている

答えて

関連する問題