私はHadoopクラスタのファイル数を減らすためにHadoop Archiveを使用していますが、データの保持にはできるだけ長くデータを保存したいと考えています。それから、問題はHadoop Archiveがフォルダサイズを小さくしないことです(私のフォルダには、小さなファイルと大きいファイルの両方のタイプがあり、シーケンスファイルを使用するのには適していません)。Hadoopアーカイブツールの出力を圧縮
私は-D mapreduce.compress.map.output=true -D mapred.map.ouput.compress.codec=org.apache.hadoop.io.compress.GzipCodec
のようないくつかのオプションを使用しましたが、動作しません。
誰でもHadoop Archiveの圧縮出力の方法を知っている人はいませんか、多分私は両方の目標(圧縮サイズとファイル数を減らす)を得ることを提案します。
いずれの情報もありがとうございます。本当にありがとう。
詳細を教えてください。 runを実行する前に別のmap-reduceジョブを使用すると、元のディレクトリ構造が破壊される可能性があります。 – dltu