2017-02-02 10 views
-2

データセットをフィルタリングして、パラレルに保持するデータセットのリストを取得します。データセットのリストをスパークで並列化

コード:

val yearWiseDsList = years.map(year => ds.filter($"year".rlike(year.toString))) 

yearWiseDsList.zipWithIndex.foreach { 
     case (xDf, idx) => 
xDf.write.format("csv").option("header", "false").save("mydata" + "_" + (startYear + idx)) 
} 

現在foreachが順次実行されます。 yearWiseDsListparListに変換できますが、パラレル化のためにスパークを使用しません。

どのようにしてsparkでこれを行うことができますか?

+0

Apache sparkは完全に異なる並列化方式を備えています。あなたはGoogleで 'apache spark rdd tutorial'を検索することから始めることができます。 –

+0

スパークは私を助けません。あなたが私がすでに試したyearWiseDsListをsc.parallelizeすることを提案しているか、それはうまくいかない。 – sanjay

+0

'うまくいきません。' ...何がうまくいかないの?あなたが達成できなかったのは何ですか? RDDはSparkの並列化の方法です。他に何をしたいですか? –

答えて

関連する問題