2012-03-01 21 views
4

私はちょうどPythonで始まり、urllib2を使ってサイトのHTMLソースコードをリクエストしようとしています。しかし、サイトからHTMLコンテンツを取得しようとすると、完全なHTMLコンテンツが得られません - タグがありません。私は彼らがコードが現れた火かき棒でサイトを見るとき、彼らが行方不明であることを知っている。これは私がデータを要求している方法に起因するのですか?もしそうなら、私はPythonでサイトの完全なソースコードを入手して解析する方法がありますか?urllib2が完全なWebページを返さない

現在、私がコンテンツを要求するために使用していると私がしようとしているサイトがあるコード:

import urllib2 

url = 'http://marinetraffic.com/ais/' 
response = urllib2.urlopen(url) 
html = response.read() 
print(html) 

間の具体的内容 - divのidは=「map_areaは」 - 欠けています。任意のヘルプ/ポインタが大いに感謝!このページのコンテンツのほとんどが動的にJavascriptを介して生成されるので、あなたが不完全なデータを取得している

+0

この[関連する質問](http://stackoverflow.com/q/8323728/183066)が役立ちます。 – jcollado

答えて

4

... urlopenによって返された記述子に

0

readは、すでにダウンロードされているものを返します。だからあなたは短い読書をするのは嫌です。 urllib.urlretrieve()を使用するほうが、ファイル全体を取得しようとし、Content-Lengthヘッダーを確認し、失敗した場合はエラーを発生させる方がよいでしょう。

関連する問題