2017-02-09 9 views
0

私はちょうど寄木細工のファイルを読むために火花を使用し、repartition(1)シャッフルを行う;その後、寄木細工のファイルに保存します。有線のことは、新しいファイルが元のファイルよりはるかに大きいことです。メタデータファイルでさえ、元のファイルよりも数百kbも大きい。誰かがその問題に気づいた? 1つの圧縮戦略(例:.gz形式)の下で、パーケットファイルをできるだけ小さくする方法はありますか?同じ大きさの同じ寄せ木細工のファイルは、

編集: 私はこの問題の基本的な考え方と他の投稿を読んでいます。私はまだソート作業をするためにどのようなコラムを選ぶべきかを議論したいと思っています。私は、この作業を行うための一般的な最適化戦略を見つけることを願っています。

+2

[なぜ元のサイズより大きな集合体のSpark Parquetファイルがあるのですか?](http://stackoverflow.com/questions/38153935/why-are-spark-parquet-files-for-an-aggregate-オリジナルよりも大きい) – eliasah

答えて

0

私はポストのリンク先のアイデアに同意すると言いたいと思います。私の状況では、ソートは良い選択になります。具体的には、異なる列でテストし、単一列と複合列でテストしました。一般に、ファイルの大部分の情報を含む列を使用した並べ替えは効果的な戦略になります。コメントを歓迎します。

関連する問題