-1
私は4列のpysparkデータフレームを持っています。合計でpysparkグループ
ID /番号/値/ X
私は列のID、番号をGROUPBY、その後、IDと数当たりの価値の合計と新しい列を追加したい。私はそれに何もせずにコロンブスxを維持したい。
終わりdf= df.select("id","number","value","x")
.groupBy('id', 'number').withColumn("sum_of_value",df.value.sum())
私は5列のデータフレームたい:ID /番号/値/ X/sum_of_value)を
誰でも助けることができていますか?
(あなたのコードフォーマット親切に、そして次の時間)いくつかのサンプルデータを入力してください – desertnaut