たとえば 私は多くの計算を行っています と私はついに にデータフレーム3つをダウンしています。例えば2つのデータフレームをスカラで並列に書き込む
:
val mainQ = spark.sql("select * from employee")
mainQ.createOrReplaceTempView("mainQ")
val mainQ1 = spark.sql("select state,count(1) from mainQ group by state")
val mainQ2 = spark.sql("select dept_id,sum(salary) from mainQ group by dept_id")
val mainQ3 = spark.sql("select dept_id,state , sum(salary) from mainQ group by dept_id,state")
//Basically I want to write below writes in parallel. I could put into
//Different files. But that is not what I am looking at. Once all computation is done. I want to write the data in parallel.
mainQ1.write.mode("overwrite").save("/user/h/mainQ1.txt")
mainQ2.write.mode("overwrite").save("/user/h/mainQ2.txt")
mainQ3.write.mode("overwrite").save("/user/h/mainQ3.txt")
あなたがスパーククラスタを持っているとき、データフレームはすでに並列に動作しています。今でも2つのデータフレームを一緒に使用したい場合は、スレッドコンセプトを実装することをお勧めします。 –