私はStandalone Spark Cluster
を使っていくつかのファイルを処理しました。私がドライバを実行すると、そのコアを使って各作業者でデータが処理されました。SPARKパーティションとワーカーコアの違いは何ですか?
今、私はPartitions
について読んだことがありますが、それがワーカーコアと異なる場合はそれを得られませんでした。
cores number
とpartition numbers
の設定に違いはありますか?
私はStandalone Spark Cluster
を使っていくつかのファイルを処理しました。私がドライバを実行すると、そのコアを使って各作業者でデータが処理されました。SPARKパーティションとワーカーコアの違いは何ですか?
今、私はPartitions
について読んだことがありますが、それがワーカーコアと異なる場合はそれを得られませんでした。
cores number
とpartition numbers
の設定に違いはありますか?
単純化したビュー:コアの数
あなたがアクションを呼び出すRDD、
パーティション(またはタスク)は作業単位を指します。 RDDとしてロードされ、128M(Sparkのデフォルト)でチャンクされた200Gのハープファイルがある場合、このRDDに〜2000個のパーティションがあります。コアの数は、一度に処理できるパーティションの数を決定し、このRDDを並列に実行できる最大2000(パーティション数/タスクの数で制限されます)を決定します。
[Spark Standaloneクラスタのワーカー、エグゼキュータ、コアとは何ですか?](http://stackoverflow.com/questions/32621990/what-are-workers-executors-cores-in-spark-standalone -クラスタ) – arglee