DataFrameWriterを使用してS3に書き出すデータセットがあります。私は、Parquetを使用しており、256個の異なる値を持つカラムに対してpartitionByコールを行っています。それはうまくいくが、データセットを書き出し(そして他のジョブに読み込む)には時間がかかる。デバッグでは、ライターは、私のrepartition
呼び出しが256個のパーティションを指定しているにもかかわらず、サフィックスごとに1つずつ、256個のファイルしか出力しないことに気付きました。それぞれのpartitionBy値のファイル出力数を増やす方法はありますか?SparkでDataFrameWriterを使用する出力ファイルの数を変更
私のコードは次のようになります。私のコードで
myDS = myDS.repartition(256, functions.col("suffix"));
myDS.write().partitionBy("suffix").parquet(String.format(this.outputPath, "parquet", this.date));