データフレームが必要以上(700以上)のパーティションに分割されているコードのバグを見ています。これはシャッフル操作が多すぎますそれらを48パーティションに再分割することができます。パーティションを分割する前に、まずパーティションを少なくしたいので、ここでは合体()を使用できません。変換後のスパークデータフレームのパーティション数を保存する
私はパーティションの数を減らす方法を検討しています。たとえば、スパークのデータフレーム(複数の列を持つ)が10個のパーティションに分割されているとします。列の1つに基づいて変換を行う必要があります。この操作が完了すると、結果として得られるデータフレームのパーティション数は同じになりますか?そうでない場合は、どのようにパーティションの数を決定するでしょうか?
また、repartition()のような明白なもの以外に、私が知っておく必要があるデータフレームのパーティション数を変更する可能性のある他の変換は何ですか?