sparkデータフレーム操作の1つでは、各タスクの入力のサイズ(MB)が大きく異なることがわかりました。いくつかのタスクのサイズはほぼ1GBで、他のタスクは15MBです。入力サイズが大きくなると、エグゼキュータが失われます。各Spark DataFrameパーティションが指定されたサイズ(MB)のデータを超えないようにする方法
spark.yarn.executor.memoryOverheadは、ある時点で動作するように調整しています。しかし、私は、各パーティションのサイズが指定されたサイズ(MB)を超えないように、DataFrameを再パーティション化できる方法があることを知りたいと思います。