0
私は以下のようなデータを持っている:PySpark相当
+----+----+
|user|item|
+----+----+
| a| 1|
| a| 2|
| a| 3|
| b| 1|
| b| 5|
| b| 4|
| b| 7|
| c| 10|
| c| 2|
+----+----+
私は次のようにのようないくつかの変換後のデータを持っているしたいと思います:
(a,(a,1))
(a,(a,2))
(a,(a,3))
(b,(b,1))
(b,(b,5))
(b,(b,4))
(b,(b,7))
(c,(c,10))
(c,(c,2))
彼らは別々のRDDSかもしれません。それは私にとっては大丈夫だろう。
データセットとscalaとjavaのgroupbykeyとflatmapgroupsの組み合わせを使って行うことができますが、残念ながらpysparkにはデータセットやフラットマップグループはありません。
pypsarkでフラットマップとフラットマップの変換を試しましたが、正しい結果を得ることができませんでした。
pysparkを使用して予期した結果を得る方法はありますか?