スパーク中:groupBy
の後にすべてが1つのエグゼキュータに行きます。 aの後にrepartition(x)
を実行すると、rdd
はxエグゼキュータで配布されるか、またはx個のパーティションにチャンクされて、xrddブロックで1つのエグゼキュータが得られますか?スパーク中:どのようなパーティションが正確に機能しますか?
例:
rdd = rdd_tmp.groupBy.repartition(32).cache()
rdd.count()
私は32件のエグゼキュータを使用していると私はgroupBy operation
を実行し、rdd
をキャッシュされた場合。 32個のRDDブロック
32のエグゼキュータと
1 executorを1
各RDD
で: は私が得ますか?