Python urllib2 parse htmlの問題

私は機械化を使ってウェブサイトのhtmlを解析していますが、このウェブサイトでは私は奇妙な結果を得ました。Python urllib2 parse htmlの問題

from mechanize import Browser 
br = Browser() 
r = br.open("http://www.heavenplaza.com") 
result = r.read()

結果はわかりません。あなたはここに見ることができます：http://paste2.org/p/1556077

誰もがそのウェブサイトのHTMLを取得する方法を持つことができますか？機械化またはurllibで。

おかげ

出典

2011-08-01 kairyu

の回答ではなくペーストビンで結果を投稿してください。特に結果が1行長い場合は！ – senderle

import urllib2, StringIO, gzip 
f = urllib2.urlopen("http://www.heavenplaza.com") 
data = StringIO.StringIO(f.read()) 
gzipper = gzip.GzipFile(fileobj=data) 
print gzipper.read()

出典

2011-08-01 13:52:58 ksn

これはうまくいきました。 – kairyu

は、私はすぐにコンソールでスクリプトを確認し、サイトには、がらくたを返していました。おそらく、あなたのHTTPユーザエージェントを、あなたがロボットを使っていると思っていないものに偽装する必要があります。

http://www.google.com作品

出典

2011-08-01 13:47:30

これは私のユーザエージェントです：br.addheaders = [（ 'User-Agent'、 'Mozilla/5.0（Windows; U; Windows NT 6.1; en-US; rv：1.9.2.17）Gecko/20110420 Firefox/3.6。 17 '）]それはあまりにも仕事ではありません。 – kairyu

上記の返信に基づき、サイトは正しく受け入れられません/ gzipヘッダを受け入れます –

Python urllib2 parse htmlの問題

答えて

関連する問題