2016-04-16 5 views
-1

私はavroデータ(〜2 TB)を寄木張りに変換したいと考えました。ハイブ変換avroから寄木細工までのデータサイズが大幅に増加しました

ハイブクエリを実行し、データを寄せ木に変換できました。

しかし、データサイズは6 TBになりました。

データが3倍になったのはどうでしたか?

+0

Parquetテーブルに特定の圧縮コーデックを設定しましたか? AFAIKはデフォルトでSnappyを使用していますが、CPUは安いが、ディスク効率はあまり高くありません。 –

+0

寄木張りの代わりにORCを試しましたか? *(デフォルトの圧縮コーデックはGZipで、スナッピーまたはなしに切り替えることができます)* –

+0

圧縮のプロパティを設定するのを忘れていました。デフォルトでは圧縮されていない可能性があります。 – user2942227

答えて

-1

典型的には、同じタイプの列が円柱上に隣接しているため、円柱形の列であるため、円弧はAvroより効率的です。これにより、圧縮アルゴリズムがより効果的になる場合があります。一般的には、Snappyを使用します.Snappyは、CPU上で十分で簡単で、zipやgzipなどの他の圧縮メソッドと比べてHadoopに適したいくつかのプロパティを備えています。主にスナッピーは分割可能です。各ブロックは、スキーマを決定するために必要な情報を保持する。 MParquetは素晴らしいフォーマットです。Avroから移動した後のクエリのパフォーマンスは非常に満足しています(また、超高速のImpaplaも使用できます)。

+0

私は圧縮のプロパティを設定するのを忘れていました。デフォルトでは圧縮されていない可能性があります。 – user2942227

+0

私は圧縮のプロパティを設定するのを忘れていました。デフォルトでは圧縮されていない可能性があります。 – user2942227

関連する問題