1
マイスパークジョブは、より読みやすく、テスト可能なビューのコードのプログラミングの観点からの地図操作の連鎖チェーン
JavaRDD<Row> rowRDD = raw
.javaRDD()
.mapPartitions(new CustomPartitionMapper())
.map(new DataSpecialMapper(config))
.map(new CsvFormatMapper(config))
.map(new ReportCounters());
が含まれています。 質問はパフォーマンスに関するものです。
マッパのチェーンが1つのマッパ操作としてSparkによって解釈され、同じエグゼキュータ内で実行されるかどうか。パフォーマンスに何が影響するのでしょうか?
おかげ