複数の列を持つデータフレームがあります。私は1つの列でグループ化し、他の列をすべて一度集約したい。テーブルに4つの列cust_id、f1、f2、f3があり、cust_idでグループ化してavg(f1)、avg(f2)、および平均(f3)を取得したいとします。テーブルには多くの列があります。何かヒント?Sparkで複数の列を一度に集約する方法
次のコードは良いスタートですが、私は多くの列を持っているので、手動で書き込むことはお勧めできません。
df.groupBy("cust_id").agg(sum("f1"), sum("f2"), sum("f3"))
[SparkSQL:列のリストに集計関数を適用する]の重複している可能性があります(http://stackoverflow.com/questions/33882894/sparksql-apply-aggregate-functions-to-a-list-of-column) –