sparkを使用して複数の計算を並行して実行できますか?それから利益を得ることができるどのようにスパークの垂直並列性を達成するには?
例例:
- 大型の列の列方向のタスクを実行しています。 StringIndexerを10K列に適用すると、1人の作業者のみで計算し、できるだけ多くの作業者が単一の列で作業することで利益を得ることができます。
小さなデータセットに対して多数の基本タスクを実行しています。
in_pathため、long_ds_listでout_path:たとえば。 spark.read(in_path).select( '列'))(個別の書き込み(out_path)
私は最も近い同等物を考えることができます。 SparkR.lapply()または.Net Parallel.ForEach()が、より単純なマルチスレッドの場合よりもむしろクラスタ環境の場合に発生します。