2017-02-26 3 views
0

私はwgetを使用して、かなり大量のデータ(〜50〜100 GB、数千のファイル)をサーバーからダウンロードします。かなり時間がかかるので、パフォーマンスについていくつか質問したいと思います。wgetのパフォーマンスが低下し、ダウンロードが始まるまで時間がかかるのはなぜですか?

1)wgetを実行すると、ダウンロードが行われていない非常に長い初期段階があり、突然起動します。この段階は実際のダウンロードよりもはるかに長いようです。 wgetプロセスの開始時に何が起こり、それをスピードアップする方法がありますか?

この段階では、ネットワークアクティビティはありません.Wgetはtopでは非常にアクティブではないようです。 wgetのオプション-erobots=offと何か関係がありますか? 50〜100ギガバイト程度の合計に含まmain_dir

.../main_dir/ 
    000001/ 
     file1 
     file2 
     ... 
    000002/ 
     ... 
    ... 

:私はダウンロードするつもり

2)ファイル構造はそうのようなものです。

wget -q -nH --cut-dirs=6 -r --level=7 -l0 -c -N -np -R 'index*' -erobots=off https:.../main_dir/ 

それは動作しません(それはちょうどそこにハングアップ):しかし、私は、再帰的に、このようなコマンドでmain_dirをダウンロードしようとした場合。これは、1つのwgetコマンドが受け取るファイルサイズの制限があるためですか? main_dirに約10GBが含まれている場合、同じコマンドが機能するためです。

また、サーバーから100GBをダウンロードしようとすると、何か特別なやり方がありますか?

答えて

0

誰かがこれに対する答えをまだ探している場合は、ここから学んだことがあります。 lftpを使用して、サイトをミラーリングすることで回避することができ始め、時遅く索引付けステップは確かにあります:

lftp -e "mirror path/to/dir/; quit" site.url 

は、これははるかに高速であり、また、終わった、複数のストリームのダウンロードを(ドキュメントを参照してください)、サポートしています非常に大きな転送では、ダウンロード時間を12〜24時間から1時間に短縮します。

関連する問題