-2
データセットをフィルタリングして、パラレルに保持するデータセットのリストを取得します。データセットのリストをスパークで並列化
コード:
val yearWiseDsList = years.map(year => ds.filter($"year".rlike(year.toString)))
yearWiseDsList.zipWithIndex.foreach {
case (xDf, idx) =>
xDf.write.format("csv").option("header", "false").save("mydata" + "_" + (startYear + idx))
}
現在foreach
が順次実行されます。 yearWiseDsList
をpar
List
に変換できますが、パラレル化のためにスパークを使用しません。
どのようにしてsparkでこれを行うことができますか?
Apache sparkは完全に異なる並列化方式を備えています。あなたはGoogleで 'apache spark rdd tutorial'を検索することから始めることができます。 –
スパークは私を助けません。あなたが私がすでに試したyearWiseDsListをsc.parallelizeすることを提案しているか、それはうまくいかない。 – sanjay
'うまくいきません。' ...何がうまくいかないの?あなたが達成できなかったのは何ですか? RDDはSparkの並列化の方法です。他に何をしたいですか? –