0
私は以下のようなDataFrameを持っています。既存の列に基づいて新しい列を作成する必要があります。スカラを使用したSpark DataFrameの既存列の集計に基づく新しい列の追加
col1 col2
a 1
a 2
b 1
c 1
d 1
d 2
出力データフレームは、col1の> 1とCOL4のカウントがCOL2の最大値であれば、私はCOL3を見つけるために使用しているロジックはあるこの
col1 col2 col3 col4
a 1 1 2
a 2 1 2
b 1 0 1
c 1 0 1
d 1 1 2
d 2 1 2
のように見えます。
私はSQLでそれを行う方法に精通しています。しかし、データフレームDSLで解決策を見つけるのは難しいです。どんな助けもありがとう。ありがとう