2016-09-02 17 views
0

は、私は次のようにwarcアーカイブを作成するためにwgetを実行して、個々のファイルの書き込み防止:wgetの--warcファイル--recursive、

$ wget --warc-file=/tmp/epfl --recursive --level=1 http://www.epfl.ch/ 

$ l -h /tmp/epfl.warc.gz 
-rw-r--r-- 1 david wheel 657K Sep 2 15:18 /tmp/epfl.warc.gz 

$ find . 
./www.epfl.ch/index.html 
./www.epfl.ch/public/hp2013/css/homepage.70a623197f74.css 
[...] 

は私だけepfl.warc.gzファイルが必要です。 wgetがすべての個別ファイルを作成しないようにするにはどうすればよいですか?

次のように私が試した:個々のファイルの

$ wget --warc-file=/tmp/epfl --recursive --level=1 --output-document=/dev/null http://www.epfl.ch/ 
ERROR: -k or -r can be used together with -O only if outputting to a regular file. 

答えて

0

を(--recursiveなし)オプション-O /dev/nullは、出力用のファイルを作成しないようにwgetを行います。再帰的なフェッチの場合/dev/nullは受け入れられません(理由はわかりません)。しかし、連結したすべての出力を-O tmpfileで1つのファイルに書き込んだ後、このファイルを削除するのはなぜですか?

+0

私は、データの複製を避ける方法があるかどうかだけを尋ねていました。 –