0
MapPartitonでイテレータからイテレータへの変換が使用されている場合、どのようにしてディスクへのデータの流出が可能になりますか? MapPartitionはメモリ内の全パーティションを処理する必要があると理解していますが、Iterator-to-Iteratorを使用すると、MapPartitonがmemmory内のパーティション全体を必要としているにも関わらず、データをディスクに流すことができます。SparkのIteratorからIteratorへの変換で、Sparkのディスクにデータを流すことができますか?
私はMapPartitionは、メモリ内の全データを必要とするが、それはメモリに(その時には、作業するパーティション)を合わせて全体のパーティションを必要としていることを言いませんでした。リンクhttps://issues.apache.org/jira/browse/SPARK-983を参照してください。 – jack
パーティションが大きく、この問題の処理方法よりもメモリに収まらない場合。 High Performance Sparkを読むと、Iterator-to-Iterator変換はデータをディスクに流すのに役立ちます。私の質問は、MapPartitionがmemorory内のパーティション全体を必要としている間に、IteratorからIteratorへの変換(MapPartition内で宣言されたとき)がディスクに流出する可能性があることです。 – jack