ドライバプログラムが "sc.textFile"を実行すると、なぜファイルがすべてのノードに存在する必要がありますか?それをすべてのノードにコピーすると、重複データの実行をどのように処理するのですか?なぜSparkはすべてのノードにローカルファイルが存在する必要がありますか?
答えて
スパークの観点からドライバには、重複
は、それはあなたが必要とするどのように多くのパーティションを決定し、それに応じてファイルを分割うがありません。あなたはその後、各エグゼキュータの
a.file - 0 to 1000
a.file - 1001 to 2000
a.file - 2001 to 3000
のようなパーティションがある知ってもらうよドライバーに読み取るために、ファイルや特定のチャンクへのパスを持っています。彼らはあなたが共有ファイルシステムを使用しているのを知らない。重要な唯一のことは、ファイルへのパスを持ち、ファイルをどこから読み取るかを知ることです。 あなたはたった1人のエグゼキュータで終わるかもしれませんが、すべて同じように起こります。ただ1つのエグゼキュータはファイルの場所と読み込みチャンクを持つことになります。ファイル全体が処理されるまで1つずつ
これはHDFSとまったく同じ方法で動作します(私は複製係数が1と仮定しています)が、HDFSでは実際には1つのファイル(特定のマシンに座る)が1つだけのディレクトリです。エグゼキュータのすべてがそのディレクトリに移動します。レプリケーションファクタが1より大きい場合、スパークの観点からはまだ1つのディレクトリですが、ファイルのコピーが存在する別のノードに要求が送信されます。
すべてのスパークノードからアクセスできるローカルファイルシステムではなく、hdfsファイルシステムを使用します。
私はそれを理解しています。しかし、その意味合いの背後にある論理を理解したいと思います。 –
- 1. FunctoidはGACに存在する必要がありますか?
- 2. すべてのデータノードにsparkワーカーノードをインストールする必要がありますか?
- 3. ローカルファイルをhdfsにコピーする必要がありますか?
- 4. SendKeysはコンテキスト内に存在する必要があります。
- 5. 依存するDLLはいつ存在する必要がありますか?
- 6. レールエラークラスが存在する必要があります - アソシエーション
- 7. シンプルフォームアプリケーションで「フィールドが存在する必要があります」エラー
- 8. ClickOnceでは、アセンブリMyProjectがGACに存在する必要がありますか?
- 9. CSPヘッダーはサイトのすべての資産に存在する必要がありますか?
- 10. なぜmochaはdevDependenciesになる必要がありますか?
- 11. Crate:なぜPRIMARY KEY列がPARTITIONED BY句に存在する必要がありますか?
- 12. python "r +"はファイルが存在する必要がありますか?
- 13. hadoopユーザーがsudoersファイルに存在する必要がありますか?
- 14. すべての要求にすべての依存関係をロードする必要がありますか?
- 15. sqlalchemy異なる子が存在する必要があります
- 16. すべてneo4jのノード0と接続する必要があります
- 17. なぜopengl32.libにリンクする必要がありますか
- 18. なぜhtml_safeに注意する必要がありますか?
- 19. なぜGoogle Mavenリポジトリが存在し、いつ使用する必要がありますか?
- 20. なぜconst_castはあなたがキャストするものを述べる必要がありますか?
- 21. IO.FileNotFoundExceptionが存在しますが、ファイルが存在する必要があります
- 22. なぜfmapはリストのすべての要素をマップする必要がありますか?
- 23. ノードにfsモジュールをインストールする必要がありますか
- 24. すべてのOneToManyオブジェクトをHibernateで個別に保存する必要があるのはなぜですか?
- 25. なぜoauth2アクセストークンを保存する必要がありますか?
- 26. ViewディレクトリにMVCビューが存在する必要があるのはなぜですか?
- 27. 「chromedriver」実行ファイルがPATHに存在する必要があります。ロボットフレームワークpycharm
- 28. RSpecエラーFactoryGirlにユーザが存在する必要があります
- 29. "sc.addFile"と "spark-submit - files"がローカルファイルをすべてのワーカに配布しないのはなぜですか?
- 30. サーバに存在するmongodbデータベースに接続する必要があります
それは..ありがとう。 :) –
確かにサー.. :) –
@ PuneetSingh、thanks =)それはすべての問題を解決しましたか?それ以上はありますか?私は答えに加えることができるかもしれないということを意味します。 – evgenii