2016-11-12 4 views
0

3つのブロック(それぞれ64mb)を持つHDFS上のファイルがあるとします。 3つのパーティションを持つ同じファイルを使用してRDDを作成すると、クラスタ上の各ノード(クラスタに3つのデータノードがあると仮定)は、ファイル内容が重複します(hdfsとRDDのパーティションから1ブロック)。RDDパーティショニング

+0

本当に理解できますか?どうか明らかにしてください。 –

答えて

0

In HDFSブロックは無作為に配布されます(デフォルトで、ファイルを置くクライアントがクラスタの一部ではない場合)ので、レプリカ3を持たない限り、すべてのノードに1ブロックがあることを確認できません。この場合、すべてのブロックが配置されます3つのノードで

デフォルトでは、Sparkは、近くにあるノードからRDDにデータを読み込み、クラスタ全体にrddパーティションを広げようとします。

あなたは、レプリカ配置戦略、スパークエグゼキュータなどでHDFSブロックの配信を検討する必要があります。ただし、HDFSにレプリカ3があり、Sparkクラスタに3クラスタ内のすべてのノードに1つの従業員。

関連する問題