-2
ファイルがあり、各行は観測値を表します。その中に約200の列があります。最後の列を除くすべての列は独立変数です。最後の列は、予測変数0または1です。観測値が1と0の両方にラベル付けされている場合(複数行に複製されている場合)は、1とみなす必要があります。データフレームを使用してpysparkでこれを記述するコードは何でしょうか?前もって感謝します!データフレーム内のpyspark-drop重複行
ファイルがあり、各行は観測値を表します。その中に約200の列があります。最後の列を除くすべての列は独立変数です。最後の列は、予測変数0または1です。観測値が1と0の両方にラベル付けされている場合(複数行に複製されている場合)は、1とみなす必要があります。データフレームを使用してpysparkでこれを記述するコードは何でしょうか?前もって感謝します!データフレーム内のpyspark-drop重複行
だけのすべての列によって集約し、ラベルの最大を取る
from pyspark.sql.functions import max
label = df.columns[-1]
features = df.columns[:-1]
df.groupBy(features).agg(max(label).alias(label))