は、私は私はそれがたAccountIdに基づいて、その後、私はCloseDateに違いが含まれています別の列の命名date_diffを追加するグループにしたいデータフレームはどのように私はR
AccountId,CloseDate
1,2015-05-07
2,2015-05-09
3,2015-05-01
4,2015-05-07
1,2015-05-09
1,2015-05-12
2,2015-05-12
3,2015-05-01
3,2015-05-01
3,2015-05-02
4,2015-05-17
1,2015-05-12
下記持って考えてみましょう現在行と前行の間。このDate_diffは、同じAccountIdを持つ行に対してのみ計算されることを覚えておいてください。だから私は、別の列の下
を追加する前に、グループにデータを必要とする私はのmutateを使用しています別の列を追加するには
df <- read.df(sqlContext, "/home/ubuntu/work/csv/sample.csv", source = "com.databricks.spark.csv", inferSchema = "true", header="true")
df$CloseDate <- to_date(df$CloseDate)
groupedData <- SparkR::group_by(df, df$AccountId)
SparkR::mutate(groupedData, DiffCloseDt = as.numeric(SparkR::datediff((CloseDate),(SparkR::lag(CloseDate,1)))))
を使用していますRコードです。しかしgroup_byがgroupedDataを返すので、ここでmutateを使用することはできません。私は以下のエラーを受けています
Error in (function (classes, fdef, mtable) :
unable to find an inherited method for function ‘mutate’ for signature ‘"GroupedData"’
私はどのように私はmutateを使用して列を追加できるようにGroupedDataをDataframeに変換できますか?