2016-05-09 34 views
0

私は以下のようなDataFrameを持っています。既存の列に基づいて新しい列を作成する必要があります。スカラを使用したSpark DataFrameの既存列の集計に基づく新しい列の追加

col1 col2 
a  1 
a  2 
b  1 
c  1 
d  1 
d  2 

出力データフレームは、col1の> 1とCOL4のカウントがCOL2の最大値であれば、私はCOL3を見つけるために使用しているロジックはあるこの

col1 col2 col3 col4 
a  1 1  2 
a  2 1  2 
b  1 0  1 
c  1 0  1 
d  1 1  2 
d  2 1  2 

のように見えます。

私はSQLでそれを行う方法に精通しています。しかし、データフレームDSLで解決策を見つけるのは難しいです。どんな助けもありがとう。ありがとう

答えて

関連する問題