にカンマ区切りで新しい列に入力されたデータのフォーマットを同じ列の値を連結する:方法を次のようにスパーク
+--------------------+-------------+--------------------+
| date | user | product |
+--------------------+-------------+--------------------+
| 2016-10-01 | Tom | computer |
+--------------------+-------------+--------------------+
| 2016-10-01 | Tom | iphone |
+--------------------+-------------+--------------------+
| 2016-10-01 | Jhon | book |
+--------------------+-------------+--------------------+
| 2016-10-02 | Tom | pen |
+--------------------+-------------+--------------------+
| 2016-10-02 | Jhon | milk |
+--------------------+-------------+--------------------+
及び出力のフォーマットを次のように
+-----------+-----------------------+
| user | products |
+-----------------------------------+
| Tom | computer,iphone,pen |
+-----------------------------------+
| Jhon | book,milk |
+-----------------------------------+
出力には、ユーザーが注文したすべての商品が日付順に表示されます。
スパークを使用してこれらのデータを処理したいのですが、助けてください。ありがとうございました。
を持っていません[リストの添付を実行AGGとスパークデータフレームGROUPBY]の可能性のある重複します(http:/ /stackoverflow.com/questions/34202997/spark-dataframe-groupby-with-agg-performing-list-appending) – mtoto
[apache spark dataframeの列を連結]の可能な複製(http://stackoverflow.com/questions/31450846/ concatenate-columns-in-apache-spark-dataframe) –