2
DataFrame
abstraction
を使用してグループごとの累積合計を具体的に計算するにはどうすればよいですか。そしてPySpark
に?例えば、データセットにPython Spark DataFrameを使用するグループ別の累積合計
は次のように
df = sqlContext.createDataFrame([(1,2,"a"),(3,2,"a"),(1,3,"b"),(2,2,"a"),(2,3,"b")],
["time", "value", "class"])
+----+-----+-----+
|time|value|class|
+----+-----+-----+
| 1| 2| a|
| 3| 2| a|
| 1| 3| b|
| 2| 2| a|
| 2| 3| b|
+----+-----+-----+
Iは、(順序付け)time
可変上グループ毎class
ためvalue
の累積合計列を追加したいです。