Hadoopアーカイブツールの出力を圧縮

私はHadoopクラスタのファイル数を減らすためにHadoop Archiveを使用していますが、データの保持にはできるだけ長くデータを保存したいと考えています。それから、問題はHadoop Archiveがフォルダサイズを小さくしないことです（私のフォルダには、小さなファイルと大きいファイルの両方のタイプがあり、シーケンスファイルを使用するのには適していません）。Hadoopアーカイブツールの出力を圧縮

私は-D mapreduce.compress.map.output=true -D mapred.map.ouput.compress.codec=org.apache.hadoop.io.compress.GzipCodecのようないくつかのオプションを使用しましたが、動作しません。

誰でもHadoop Archiveの圧縮出力の方法を知っている人はいませんか、多分私は両方の目標（圧縮サイズとファイル数を減らす）を得ることを提案します。

いずれの情報もありがとうございます。本当にありがとう。

出典

2016-07-04 dltu

圧縮されたディレクトリでmapred compressとrun harを使用することができます

出典

2016-07-04 11:05:30

詳細を教えてください。 runを実行する前に別のmap-reduceジョブを使用すると、元のディレクトリ構造が破壊される可能性があります。 – dltu

Hadoopアーカイブツールの出力を圧縮

答えて

関連する問題