2011-08-01 5 views
1

私は機械化を使ってウェブサイトのhtmlを解析していますが、このウェブサイトでは私は奇妙な結果を得ました。Python urllib2 parse htmlの問題

from mechanize import Browser 
br = Browser() 
r = br.open("http://www.heavenplaza.com") 
result = r.read() 

結果はわかりません。あなたはここに見ることができます:http://paste2.org/p/1556077

誰もがそのウェブサイトのHTMLを取得する方法を持つことができますか?機械化またはurllibで。

おかげ

+1

の回答ではなくペーストビンで結果を投稿してください。特に結果が1行長い場合は! – senderle

答えて

1
import urllib2, StringIO, gzip 
f = urllib2.urlopen("http://www.heavenplaza.com") 
data = StringIO.StringIO(f.read()) 
gzipper = gzip.GzipFile(fileobj=data) 
print gzipper.read() 
+0

これはうまくいきました。 – kairyu

1

は、私はすぐにコンソールでスクリプトを確認し、サイトには、がらくたを返していました。おそらく、あなたのHTTPユーザエージェントを、あなたがロボットを使っていると思っていないものに偽装する必要があります。

http://www.google.com作品

+0

これは私のユーザエージェントです:br.addheaders = [( 'User-Agent'、 'Mozilla/5.0(Windows; U; Windows NT 6.1; en-US; rv:1.9.2.17)Gecko/20110420 Firefox/3.6。 17 ')]それはあまりにも仕事ではありません。 – kairyu

+0

上記の返信に基づき、サイトは正しく受け入れられません/ gzipヘッダを受け入れます –