なぜSparkはすべてのノードにローカルファイルが存在する必要がありますか？

ドライバプログラムが "sc.textFile"を実行すると、なぜファイルがすべてのノードに存在する必要がありますか？それをすべてのノードにコピーすると、重複データの実行をどのように処理するのですか？なぜSparkはすべてのノードにローカルファイルが存在する必要がありますか？

出典

2016-04-12 Puneet Singh

スパークの観点からドライバには、重複

は、それはあなたが必要とするどのように多くのパーティションを決定し、それに応じてファイルを分割うがありません。あなたはその後、各エグゼキュータの

a.file - 0 to 1000 
a.file - 1001 to 2000 
a.file - 2001 to 3000

のようなパーティションがある知ってもらうよドライバーに読み取るために、ファイルや特定のチャンクへのパスを持っています。彼らはあなたが共有ファイルシステムを使用しているのを知らない。重要な唯一のことは、ファイルへのパスを持ち、ファイルをどこから読み取るかを知ることです。あなたはたった1人のエグゼキュータで終わるかもしれませんが、すべて同じように起こります。ただ1つのエグゼキュータはファイルの場所と読み込みチャンクを持つことになります。ファイル全体が処理されるまで1つずつ

これはHDFSとまったく同じ方法で動作します（私は複製係数が1と仮定しています）が、HDFSでは実際には1つのファイル（特定のマシンに座る）が1つだけのディレクトリです。エグゼキュータのすべてがそのディレクトリに移動します。レプリケーションファクタが1より大きい場合、スパークの観点からはまだ1つのディレクトリですが、ファイルのコピーが存在する別のノードに要求が送信されます。

出典

2016-04-13 20:49:29 evgenii

それは..ありがとう。 :) –

確かにサー.. :) –

@ PuneetSingh、thanks =）それはすべての問題を解決しましたか？それ以上はありますか？私は答えに加えることができるかもしれないということを意味します。 – evgenii

すべてのスパークノードからアクセスできるローカルファイルシステムではなく、hdfsファイルシステムを使用します。

出典

2016-04-12 10:11:52

私はそれを理解しています。しかし、その意味合いの背後にある論理を理解したいと思います。 –

なぜSparkはすべてのノードにローカルファイルが存在する必要がありますか？

答えて

関連する問題