データフレーム内のpyspark-drop重複行

-2

ファイルがあり、各行は観測値を表します。その中に約200の列があります。最後の列を除くすべての列は独立変数です。最後の列は、予測変数0または1です。観測値が1と0の両方にラベル付けされている場合（複数行に複製されている場合）は、1とみなす必要があります。データフレームを使用してpysparkでこれを記述するコードは何でしょうか？前もって感謝します！データフレーム内のpyspark-drop重複行

出典

2017-11-11 student

だけのすべての列によって集約し、ラベルの最大を取る

from pyspark.sql.functions import max 

label = df.columns[-1] 
features = df.columns[:-1] 

df.groupBy(features).agg(max(label).alias(label))

出典

2017-11-12 02:07:25 user8926383

データフレーム内のpyspark-drop重複行

答えて

関連する問題