Sparkがデータを取り込んだとき、データがドライバに取り込まれて作業者に送られたのか、Sparkがノードにファイルシステムからデータを読み込ませるように指示するのだろうか?スパーク読み取り時ファイルシステムからはドライバに移動しますか?
私は、スパークストリーミングでは、カフカソースを使って、明らかに、ワーカーノードがカフカから読むことを知っています。しかし、ファイルシステムから読み込むとき、私はそれが実際にどのように動作するかは不明です。
ケース1
A - ファイルシステムはHDFS
A.1であると仮定すると、ファイルシステムからの読み取り時 - ドライバがファイルを読み取り、ワーカー にデータを転送していまたは作業員にファイルを読み取らせますか?
A.2 - 元のパーティションはHDFSのパーティションによって決定されますか?
ケース2
B - ファイルシステムからどこのファイルシステムがローカルである場合には1またはS3
B.1 - ないパーティションに起こる、我々天気をアルゴリズムの変更を何HDFSから読み込むか、ローカルファイルシステムから読み込みますか? (後者の場合には、特別なアルゴリズムがHDFSのパーティションに頼るに代わりに使用される B.2は? - 労働者はデータがまだ分割されていなくてもカントー、データの読み込みに参加してい
場合は?誰かが参考になること、それを明確にするために少しを助けることができるのおかげ