0
私はちょうど寄木細工のファイルを読むために火花を使用し、repartition(1)
シャッフルを行う;その後、寄木細工のファイルに保存します。有線のことは、新しいファイルが元のファイルよりはるかに大きいことです。メタデータファイルでさえ、元のファイルよりも数百kbも大きい。誰かがその問題に気づいた? 1つの圧縮戦略(例:.gz形式)の下で、パーケットファイルをできるだけ小さくする方法はありますか?同じ大きさの同じ寄せ木細工のファイルは、
編集: 私はこの問題の基本的な考え方と他の投稿を読んでいます。私はまだソート作業をするためにどのようなコラムを選ぶべきかを議論したいと思っています。私は、この作業を行うための一般的な最適化戦略を見つけることを願っています。
[なぜ元のサイズより大きな集合体のSpark Parquetファイルがあるのですか?](http://stackoverflow.com/questions/38153935/why-are-spark-parquet-files-for-an-aggregate-オリジナルよりも大きい) – eliasah