大きなtar.gzファイルの内容をSTDOUTにパイプする方法は？

私は約1百万のファイルを含むlarge.tar.gzファイルを持っています。そのうちの約1/4がhtmlファイルです。その中の各htmlファイルの数行を解析したいと思います。大きなtar.gzファイルの内容をSTDOUTにパイプする方法は？

私が代わりに私がそのようSTDOUTにどのようにすることができますIパイプlarge.tar.gzストレートでのhtmlファイルの内容を知っていただきたいと思い、フォルダに大きなlarge.tar.gzの内容を抽出することを避けるため、その後のhtmlファイルを解析したいです私は彼らから欲しい情報をgrep /解析することができますか？

私のようないくつかの魔法がなければならないと推定：任意のアイデア

tar -special_flags large.tar.gz | grep_only_files_with_extension html | xargs -n1 head -n 99999 | ./parse_contents.pl -

？

出典

2015-12-09 719016

にファイルを抽出あなたがstdoutに意味ですか？ – 123

申し訳ありませんが、私は、STDOUTを意味123 @今修正 – Aaron

あなたはそれが30行未満ですが、質問を投稿する前に時間のほとんどを ' --help'や' -h'をチェック考慮すべきであるそのうちの一つは、必要なフラグが含まれています – 719016

使用GNUのtarと、これはtgzファイルを標準出力に抽出する：

tar -xOzf large.tar.gz --wildcards '*.html' | grep ...

-O, --to-stdout：標準出力

出典

2015-12-09 10:50:00 Cyrus

'zgrep'の何が問題なのですか？ – Yaron

@ Yaron： 'pigz -dc'はより高速ですが、私はzcatを使うと思います。 – d33tah

大きなtar.gzファイルの内容をSTDOUTにパイプする方法は？

答えて

関連する問題