SparkがファイルからDataFrameにソースデータを読み込むとき、データが単一ノード(ドライバ/マスターノード)のメモリに完全にロードされるか、計算に必要な最小限の並列サブセットワーカー/エグゼキュータノード上)?ParquetからのSpark DataFrameのロードを分散して並列化する方法を教えてください。
特に、Parquetを入力フォーマットとして使用し、Spark DataFrame APIを使用してロードする場合、Parquetファイルからの読み込みを並列化してエグゼキュータに延期し、スコープが制限されていることを確認するためには、問題のエグゼキュータ・ノードでの計算に必要な列
は(私は完全なデータセットをロードすることによって、いずれかのノード上の排気メモリを避けるために、スパークは、分散実行計画では、ソースデータのロードをスケジュールするために使用するメカニズムを理解するために探しています。)