RDDパーティショニング

3つのブロック（それぞれ64mb）を持つHDFS上のファイルがあるとします。 3つのパーティションを持つ同じファイルを使用してRDDを作成すると、クラスタ上の各ノード（クラスタに3つのデータノードがあると仮定）は、ファイル内容が重複します（hdfsとRDDのパーティションから1ブロック）。RDDパーティショニング

出典

2016-11-12 Abhinav Kumar

本当に理解できますか？どうか明らかにしてください。 –

In HDFSブロックは無作為に配布されます（デフォルトで、ファイルを置くクライアントがクラスタの一部ではない場合）ので、レプリカ3を持たない限り、すべてのノードに1ブロックがあることを確認できません。この場合、すべてのブロックが配置されます3つのノードで

デフォルトでは、Sparkは、近くにあるノードからRDDにデータを読み込み、クラスタ全体にrddパーティションを広げようとします。

あなたは、レプリカ配置戦略、スパークエグゼキュータなどでHDFSブロックの配信を検討する必要があります。ただし、HDFSにレプリカ3があり、Sparkクラスタに3クラスタ内のすべてのノードに1つの従業員。

出典

2016-11-12 13:43:19 gasparms

答えて

関連する問題