RDDではgroupByKeyの使用をお勧めしていませんでした。reduceByKey()やaggregateByKey()などの代替手段を使用することをお勧めしました。これらの方法はそれぞれのパーティションで最初に減らされ、groupByKeyデータの量はシャッフルされます。データセット/データフレームでgroupby()を使用しないでください。
今、データセット/データフレームにこれが適用されるのかどうかという疑問があります。触媒エンジンは多くの最適化を行っているので、触媒は自動的にそれが各区画で減少すべきであることを知っていることを知り、グループを実行すると考えていました。私は正しいですか?または、各パーティションの削減がgroupByより前に実行されるようにするための手順を実行する必要があります。