1
Hadoopには圧縮と解凍のサポートが組み込まれていますが、これはマッパー出力(いくつかのプロパティを設定)に関するものですね。Hazard/PIGでgzipデータを圧縮/解凍するのは透明ですか?
圧縮データの読み込みや圧縮データの出力に使用できる特定のPIGロード/ストア関数があるのでしょうか?
Hadoopには圧縮と解凍のサポートが組み込まれていますが、これはマッパー出力(いくつかのプロパティを設定)に関するものですね。Hazard/PIGでgzipデータを圧縮/解凍するのは透明ですか?
圧縮データの読み込みや圧縮データの出力に使用できる特定のPIGロード/ストア関数があるのでしょうか?
PigStorageは、ファイル名を調べることによって圧縮された入力を処理します。
org.apache.pig.bzip2r.Bzip2TextInputFormat
org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigTextInputFormat
を使用しています - これは.gzをしてジッピー処理できるo.a.h.mapreduce.TextinputFormat
拡張ファイルあなたはコーデックがインストールされている場合出力は、いくつかのプロパティを介して処理されます。
output.compression.enabled
- 真/偽output.compression.codec
- PigStorage.javaを掘りすることがありますが、それまで感じている場合は、コーデックのクラス名は(gzipのためorg.apache.hadoop.io.compress.GzipCodec
)使用しますあなたに興味のあるもの
http://my.safaribooksonline.com/book/-/9781449317881/8dot-making-pig-fly/id2907215は、中間圧縮 –