Spark SQL - gzipとスナップとlzoの圧縮形式の違い

parquetファイルを書き込むためにSpark SQLを使用しようとしています。Spark SQL - gzipとスナップとlzoの圧縮形式の違い

デフォルトでは、Spark SQLはgzipをサポートしていますが、snappyとlzoのような他の圧縮フォーマットもサポートしています。

これらの圧縮形式と、Hiveを使用して作業するのに最適な圧縮形式の違いは何ですか。

2016-03-04 Shankar

デフォルトのスパークで "きびきび" ではなく "GZIP" を使用しているようです。少なくとも、それは私がs3で見るものです。名前の一部として文字列 "snappy"で作成されたファイルです。 – bashan

@bashan：最新のsparkのバージョンは、デフォルトのフォーマットをスナッピーに変更しました.1.6.1までデフォルトの寄木細工の圧縮フォーマットはgzipです。 – Shankar

あなたのデータを試してみてください。

lzoとスナッパーは圧縮率が高く圧縮率が低いgzipと比較して圧縮率が高く、圧縮率が非常に高速ですが、少し遅くなります。

2016-03-04 07:44:40

パフォーマンスの向上のためにディスクの使用量を増やすことができれば、スナッピーを使用します（CPU +スプリット可能）。

スパークは、デフォルトでスナッピーにGZIPから切り替わったとき、これは推論した：我々のテストに基づいて

、gzipで圧縮解除が非常に遅い（< 100メガバイト/秒）、は、バインドされたクエリの解凍を行います。スナイピーは、単一コア上に~500MB/sで解凍できます。

スナッピー：

GZIP：

2017-05-30 03:18:22 Garren

答えて