私はウェブサイトからデータのGBSをダウンロードするタスクがあります。データは.gzファイルの形式であり、各ファイルのサイズは45MBです。wget対Pythonのurlretrieve
ファイルを簡単に取得するには、「wget -r -np -A files url」を使用します。これにより、再帰的な形式でデータをドローロードし、Webサイトを反映します。ドンロード率は4mb/secと非常に高い。
しかし、周りを遊ぶために私は私のurlparserを構築するためにpythonも使用していました。
Pythonのurlretrieve経由でのダウンロードは、遅いですが、可能な速度はwgetの4倍です。ダウンロード速度は500kb /秒です。 hrefタグを解析するためにHTMLParserを使用します。
なぜこのようなことが起こっているのかわかりません。このための設定はありますか?
ありがとうございました
CPU使用率とtcpdump出力を比較しようとしましたか? –
tcpdumpとは何ですか?それを得る方法? –
私は転送速度(メガバイト/ MBとメガビット/ Mbはまったく異なります!)を無視して、 'time wget http:// example.com/file'と' time python urlretrieve_downloader.py'コマンドを使って2つを比較します。 – dbr