私はavroデータ(〜2 TB)を寄木張りに変換したいと考えました。ハイブ変換avroから寄木細工までのデータサイズが大幅に増加しました
ハイブクエリを実行し、データを寄せ木に変換できました。
しかし、データサイズは6 TBになりました。
データが3倍になったのはどうでしたか?
私はavroデータ(〜2 TB)を寄木張りに変換したいと考えました。ハイブ変換avroから寄木細工までのデータサイズが大幅に増加しました
ハイブクエリを実行し、データを寄せ木に変換できました。
しかし、データサイズは6 TBになりました。
データが3倍になったのはどうでしたか?
典型的には、同じタイプの列が円柱上に隣接しているため、円柱形の列であるため、円弧はAvroより効率的です。これにより、圧縮アルゴリズムがより効果的になる場合があります。一般的には、Snappyを使用します.Snappyは、CPU上で十分で簡単で、zipやgzipなどの他の圧縮メソッドと比べてHadoopに適したいくつかのプロパティを備えています。主にスナッピーは分割可能です。各ブロックは、スキーマを決定するために必要な情報を保持する。 MParquetは素晴らしいフォーマットです。Avroから移動した後のクエリのパフォーマンスは非常に満足しています(また、超高速のImpaplaも使用できます)。
私は圧縮のプロパティを設定するのを忘れていました。デフォルトでは圧縮されていない可能性があります。 – user2942227
私は圧縮のプロパティを設定するのを忘れていました。デフォルトでは圧縮されていない可能性があります。 – user2942227
Parquetテーブルに特定の圧縮コーデックを設定しましたか? AFAIKはデフォルトでSnappyを使用していますが、CPUは安いが、ディスク効率はあまり高くありません。 –
寄木張りの代わりにORCを試しましたか? *(デフォルトの圧縮コーデックはGZipで、スナッピーまたはなしに切り替えることができます)* –
圧縮のプロパティを設定するのを忘れていました。デフォルトでは圧縮されていない可能性があります。 – user2942227