ハイブ変換avroから寄木細工までのデータサイズが大幅に増加しました

-1

私はavroデータ（〜2 TB）を寄木張りに変換したいと考えました。ハイブ変換avroから寄木細工までのデータサイズが大幅に増加しました

ハイブクエリを実行し、データを寄せ木に変換できました。

しかし、データサイズは6 TBになりました。

データが3倍になったのはどうでしたか？

出典

2016-04-16 user2942227

Parquetテーブルに特定の圧縮コーデックを設定しましたか？ AFAIKはデフォルトでSnappyを使用していますが、CPUは安いが、ディスク効率はあまり高くありません。 –

寄木張りの代わりにORCを試しましたか？ *（デフォルトの圧縮コーデックはGZipで、スナッピーまたはなしに切り替えることができます）* –

圧縮のプロパティを設定するのを忘れていました。デフォルトでは圧縮されていない可能性があります。 – user2942227

-1

典型的には、同じタイプの列が円柱上に隣接しているため、円柱形の列であるため、円弧はAvroより効率的です。これにより、圧縮アルゴリズムがより効果的になる場合があります。一般的には、Snappyを使用します.Snappyは、CPU上で十分で簡単で、zipやgzipなどの他の圧縮メソッドと比べてHadoopに適したいくつかのプロパティを備えています。主にスナッピーは分割可能です。各ブロックは、スキーマを決定するために必要な情報を保持する。 MParquetは素晴らしいフォーマットです。Avroから移動した後のクエリのパフォーマンスは非常に満足しています（また、超高速のImpaplaも使用できます）。

出典

2016-04-17 14:45:01

私は圧縮のプロパティを設定するのを忘れていました。デフォルトでは圧縮されていない可能性があります。 – user2942227

ハイブ変換avroから寄木細工までのデータサイズが大幅に増加しました

答えて

関連する問題