0
3つのブロック(それぞれ64mb)を持つHDFS上のファイルがあるとします。 3つのパーティションを持つ同じファイルを使用してRDDを作成すると、クラスタ上の各ノード(クラスタに3つのデータノードがあると仮定)は、ファイル内容が重複します(hdfsとRDDのパーティションから1ブロック)。RDDパーティショニング
3つのブロック(それぞれ64mb)を持つHDFS上のファイルがあるとします。 3つのパーティションを持つ同じファイルを使用してRDDを作成すると、クラスタ上の各ノード(クラスタに3つのデータノードがあると仮定)は、ファイル内容が重複します(hdfsとRDDのパーティションから1ブロック)。RDDパーティショニング
In HDFSブロックは無作為に配布されます(デフォルトで、ファイルを置くクライアントがクラスタの一部ではない場合)ので、レプリカ3を持たない限り、すべてのノードに1ブロックがあることを確認できません。この場合、すべてのブロックが配置されます3つのノードで
デフォルトでは、Sparkは、近くにあるノードからRDDにデータを読み込み、クラスタ全体にrddパーティションを広げようとします。
あなたは、レプリカ配置戦略、スパークエグゼキュータなどでHDFSブロックの配信を検討する必要があります。ただし、HDFSにレプリカ3があり、Sparkクラスタに3クラスタ内のすべてのノードに1つの従業員。
本当に理解できますか?どうか明らかにしてください。 –