私はsparkタスクの入出力メトリックのいくつかを見ています。これは、基本的に、キーを使用して最後にsaveAsHadoopを設定して、データをDynamoDBに格納するというものです。古典的なmap-reduce。メトリックのいくつかを見てみるとshuffleの前に各パーティションでreduce関数を実行すると、Spark ReduceByKey関数が最適化されますか?
、
マップ後、スパークは盲目的にデータをシャッフルし、各シャッフルparitionに減らす機能を適用することが表示されます。 reduce関数が主に出力を減らした場合は、シャッフル前と後にそれぞれのパーティションにreduceを最初にソートして適用するのが最適です。reduce関数が関連し通勤するので簡単です。これは古典的なHadoopマップです - >結合 - >シャッフル - >パターンを減らす。 Sparkはこの最適化を利用できますか?