0
(グループ化された)pysparkデータフレーム内のマップの列を1つのマップに集約するcollect_listまたはcollect_setと同様の機能はありますか?たとえば、この関数は次のように動作している場合があります。pysparkデータフレーム内のマップの配列を1つのマップに結合
>>>df.show()
+--+---------------------------------+
|id| map |
+--+---------------------------------+
| 1| Map(k1 -> v1)|
| 1| Map(k2 -> v2)|
| 1| Map(k3 -> v3)|
| 2| Map(k5 -> v5)|
| 3| Map(k6 -> v6)|
| 3| Map(k7 -> v7)|
+--+---------------------------------+
>>>df.groupBy('id').agg(collect_map('map')).show()
+--+----------------------------------+
|id| collect_map(map) |
+--+----------------------------------+
| 1| Map(k1 -> v1, k2 -> v2, k3 -> v3)|
| 2| Map(k5 -> v5)|
| 3| Map(k6 -> v6, k7 -> v7)|
+--+----------------------------------+
おそらく他のcollect_の集計とUDFのいずれかを使用して所望の結果を得るには余りにも難しいことではないだろうが、それはこのようなもののように思えるはずすでに存在しています。