0
私は1つのDataFrame
に結合したいのと同じスキーマで10 DataFrame
を取得しました。それぞれDataFrame
はsqlContext.sql("select ... from ...").cahce
を使用して作成されます。つまり、技術的にはDataFrame
は実際に使用するまで計算されません。スパークはUnionAllを並行して実行しますか?
私は実行するのであれば、:
val df_final = df1.unionAll(df2).unionAll(df3).unionAll(df4) ...
は(原因ドット演算子に)パラレルまたは1つずつで、これらすべてのDataFrame
Sを計算スパークのだろうか?
DataFrame
の上にunionAll
を先ほど作成したよりエレガントな方法がありますか?
最後の部分については、http://stackoverflow.com/a/37612978/1560062を参照してください。それが "並行して"起きたら?並列リソースだけでなく、利用可能なリソースやデータが意味するものによって異なります。 – zero323
@ zero323は、それを処理するのに十分なリソースがあると仮定すると、非同期的かつ非ブロック的に起こっていますか? – shakedzy
私はDanielがこの質問にかなり答えたと思う:) – zero323