Sparkでは、アプリケーションが開始されると、アプリケーションのデータセットを含むRDD(WordCount用の単語データセットなど)が作成されます。RDDとApache Sparkのパーティション
これまでのところ私が理解RDD(例えばマップ、reduceByKeyは、等...)
しかし、私の知る限りで、スパークこれらのデータセットに行われているWORDCOUNTでそれらの単語や操作のコレクションがあるということですHDFSからすべてのエグゼキュータによって読み込まれるHadoopPartition(または一般的にはパーティション)もあります。また、ドライバのRDDにはこれらのパーティションがすべて含まれていると思います。
Sparkのエグゼキュータには何が分かれていますか?すべてのエグゼキュータは、これらのサブデータセットをドライバ内のRDDに比べて少ないデータを含む単一のRDDとして取得するか、すべてのエグゼキュータはこれらのパーティションのみを処理してHDFSから直接読み込みますか?また、パーティションはいつ作成されますか? RDD作成について