2011-09-12 11 views
2

可能性の重複:私はgzipで圧縮された入力ファイルを使用しているときにHadoopを選択し処理するために1つのマップのみタスクを割り当てることがわかっ
Why can't hadoop split up a large text file and then compress the splits using gzip?HadoopのGZIP入力ファイル使用して唯一のマッパー

私の地図/仕事を減らす。

私はそれを改善するために行うことができます任意の構成があります(非圧縮ファイルを使用している場合exacly好き)

gzipで圧縮されたファイルには、以上の1.4ギガバイトであるので、私は多くのマッパーを並列に実行するように期待しますか?

+0

この質問はhttp://stackoverflow.com/questions/6511255/why-cant-hadoop-split-up-a- と同一であります大テキストファイルと-当時圧縮-分割-使用-GZ と http://stackoverflow.com/questions/5630245/hadoop-gzip-compressed-files 。 –

答えて

4

Gzipファイルは分割できないため、すべてのデータが1つのマップで処理されています。圧縮ファイルを分割できる他の圧縮アルゴリズムを使用しなければならない場合、データは複数のマップで処理されます。ここに素敵な記事があります。 (1)

編集:これはGoogleのSnappy(2)に関する別の記事です。

(1)http://blog.cloudera.com/blog/2009/11/hadoop-at-twitter-part-1-splittable-lzo-compression/

(2)http://blog.cloudera.com/blog/2011/09/snappy-and-hadoop/

関連する問題