私はスパークするのが初めてで、一般的な質問があります。すべてのファイルが処理されるすべてのワーカーノードで利用可能でなければなりません。ドライバーはパーティションを制御しますが、ドライバーはどのパーティションをどのように読み取るように指示しますか?Apache Sparkでのデータ配信
1
A
答えて
0
各RDDは複数のパーティションに分割されています。各パーティションを計算するために、Sparkはタスクを生成してワーカーノードに割り当てます。ドライバが作業者に作業を送信すると、その作業のPartitionIDも指定されます。
作業者は、RDDのイテレーターをInputRDDまで連鎖させ、PartitionIDを渡してタスクを実行します。 InputRDDは、指定されたパーティションIDに対応する入力のどの部分を決定し、データを返します。
rddIter.next -> parentRDDIter.next -> grandParentRDDIter.next -> ... -> InputRDDIter.next
0
スパークは、近くにあるノードからRDDにデータを読み込もうとします。 Sparkは通常、分散パーティション化データにアクセスするため、変換操作を最適化するために、データチャンクを保持するパーティションを作成します。
https://github.com/jaceklaskowski/mastering-apache-spark-book
関連する問題
- 1. apache spark streamingでのアプリケーション間通信
- 2. Apache SparkでXMLデータを解析する
- 3. Apache Sparkスキューされたデータの処理
- 4. Apache SparkとApache Ignite
- 5. apache storm/sparkとデータ視覚化ツール
- 6. Apache Sparkのパーティション
- 7. apache sparkのディスジョイントセット
- 8. Apache Spark:ブロードキャストでハングアップ
- 9. Apache Sparkでのリモートジョブ(Java)
- 10. Apache SparkからのJsonデータの処理方法Javaでのストリーミング
- 11. Apache Spark - ワーカーノードでのデータのグループ化と実行
- 12. Apache-SparkグラフフレームのSBT
- 13. Apache Sparkの主キー
- 14. Apache Spark RDDワークフロー
- 15. Bluemix Apache Spark Metrics
- 16. apache spark implementation
- 17. TalendとApache Spark?
- 18. apache sparkストリーミングエラー
- 19. Apache Spark Configuration
- 20. Apache Sparkスタンドアロンクラスタチューニングパラメータ
- 21. Apache Cassandra and Spark
- 22. java apache spark mllib
- 23. Apache Spark distributed sql
- 24. Apache Sparkアプリケーションフレームワーク
- 25. apache sparkストラクチャードストリーミング
- 26. Apache Sparkでの階層的なデータ操作
- 27. Apache Sparkで静的データを読み込む最良の方法
- 28. Apache SparkでRAMにデータを保存できますか?
- 29. Apache ZeppelinでSparkを実行
- 30. Spark 1.6でデータスキューを回避し、データを均等に配信する方法
あなたは労働者が最初にすべてのパーティションを取得し、それらを処理することを意味しますか? – saeed