2017-11-11 11 views
-2

ファイルがあり、各行は観測値を表します。その中に約200の列があります。最後の列を除くすべての列は独立変数です。最後の列は、予測変数0または1です。観測値が1と0の両方にラベル付けされている場合(複数行に複製されている場合)は、1とみなす必要があります。データフレームを使用してpysparkでこれを記述するコードは何でしょうか?前もって感謝します!データフレーム内のpyspark-drop重複行

答えて

2

だけのすべての列によって集約し、ラベルの最大を取る

from pyspark.sql.functions import max 

label = df.columns[-1] 
features = df.columns[:-1] 

df.groupBy(features).agg(max(label).alias(label)) 
関連する問題