RDDはキーと値のペアです。 groupByKey()は、パフォーマンスを損なうシャッフルをたくさん作成する可能性があります。 groupByKey()を使用して不必要なシャッフルを減らす方法が不思議でしたgroupByKey()を使用してシャッフルを減らす方法
最初にRDDを最初に再パーティション化し、次にgroupByKeyを再設定すると役立ちますか?
val inputRdd2 = inputRdd.partitionBy(new HashPartitioner(partitions=500))
inputRdd2.groupByKey()
また、partitionBy()もシャッフルを作成しますか?ありがとう