をリシェイプ:は、次のように私はスパークRDDを持っているスパークRDD
rdd = sc.parallelize([('X01','Y01'),
('X01','Y02'),
('X01','Y03'),
('X02','Y01'),
('X02','Y06')])
私は、次のような形式に変換したいと思います:
[('X01',('Y01','Y02','Y03')),
('X02',('Y01','Y06'))]
誰かがこの使用PySparkを達成するためにどのように私を助けることができますか?