pyspark 1.4で集計関数の列値のリストを取得したいと思います。 collect_list
は利用できません。誰もそれを行う方法の提案を持っていますか?pyspark 1.4集計関数のリストを取得する方法
オリジナルコラム:
ID, date, hour, cell
1, 1030, 01, cell1
1, 1030, 01, cell2
2, 1030, 01, cell3
2, 1030, 02, cell4
私は以下のような出力、groupby (ID, date, hour)
ID, date, hour, cell_list
1, 1030, 01, cell1, cell2
2, 1030, 01, cell3
2, 1030, 02, cell4
をしたいしかし、私のpysparkはcollect_list
が利用できない、1.4.0です。私はできません: df.groupBy("ID","date","hour").agg(collect_list("cell"))
。
/opt/spark1.4/bin/spark-submit-master yarn-client --num-executors 37 xxx.py –