2017-09-01 16 views
-1

私はHTMLページを比較する簡単なプログラムを書いていますが、現在のボトルネックはHTMLファイルを読み込んでいます。特にコード:なぜurllib2は読みに時間がかかりますか?

htmldata1 = urllib2.urlopen(url1).read() 
    htmldata2 = urllib2.urlopen(url2).read() 

URLはIMDBからのものです。私はなぜそれが(平均約9秒)かかるように長いか分からない。 htmlテキストを正規表現で検索したい場合は、イメージをダウンロードしている可能性があります。私はurllib2を一度も使用していないので、どんな助けもありがたいです。

編集:

私が使用例のURLは、ページが(サーバの終わりに)ロードするだけで、超遅いです

"http://www.imdb.com/title/tt0944947/fullcredits?ref_=tt_cl_sm#cast"

+0

他の人はそれを試してみると、彼らが経験するかどうかを見ることができるようにあなたは、実際のURLを与えることができればそれはいいだろう同じ行動。 – Eduardo

+0

'urllib2'ではなく' urllib'を使って試してみましたか? –

+0

@EduardoはサンプルURLを与えたばかりです。私の悪い。 Abien、この問題はurllibとurllib2の両方で解決されました。 – jman

答えて

0

です。すべてPythonの

In [4]: url1 = "http://www.imdb.com/title/tt0944947/fullcredits?ref_=tt_cl_sm#cast" 

In [5]: %time result = urllib2.urlopen(url1).read() 
CPU times: user 56.3 ms, sys: 21.6 ms, total: 77.9 ms 
Wall time: 2.16 s 

In [7]: %time result2 = requests.get(url1) 
CPU times: user 29.5 ms, sys: 6.35 ms, total: 35.9 ms 
Wall time: 2.18 s 

と外側:これは、ギガビットファイバ上で

$ time curl -o/dev/null "http://www.imdb.com/title/tt0944947/fullcredits?ref_=tt_cl_sm#cast" 
    % Total % Received % Xferd Average Speed Time Time  Time Current 
           Dload Upload Total Spent Left Speed 
100 2173k 0 2173k 0  0 537k  0 --:--:-- 0:00:04 --:--:-- 540k 
curl -o/dev/null 0.01s user 0.03s system 0% cpu 4.074 total 
関連する問題