で複数の行をカウントし、マージ、私は、このデータセットで終わる:は、Spark DATSETを変換 - いくつかのデータ処理の後ID
Dataset<Row> counts //ID,COUNT,DAY_OF_WEEK
今、私はこのフォーマットにこれを変換し、CSVとして保存する:
JavaPairRDD<Long, Map<Integer, Integer>> r = counts.toJavaRDD().mapToPair(...)
JavaPairRDD<Long, Map<Integer, Integer>> merged = r.reduceByKey(...);
サイズのその「ID」のペアとリスト7:
ID,COUNT_DoW1, ID,COUNT_DoW2, ID,COUNT_DoW3,..ID,COUNT_DoW7
は、私は次のいずれかの方法を考えることができますJavaPairRDDを入手したら、それをcsvに保存できます。それをRDDに変換せずにこの変換のためのより簡単なアプローチがありますか?