-1
の値を重複している行を削除:pyspark:私は、次のデータフレーム持って与えられたフィールド
field_A | field_B | field_C | field_D
cat | 12 | black | 11
dog | 128 | white | 19
dog | 35 | yellow | 20
dog | 21 | brown | 4
bird | 10 | blue | 7
cow | 99 | brown | 34
はfield_Aに値を重複している行をフィルタリングすることが可能です。つまり、最終的なデータフレームは、
field_A | field_B | field_C | field_D
cat | 12 | black | 11
bird | 10 | blue | 7
cow | 99 | brown | 34
です。これはpysparkで可能ですか?ありがとうございました!
確かでき、これは= t.join(idCountsを 'と、 'id'、 'left_outer')。withColumnRe名前付き( 'count'、 'newNameOfColumn') 'です。私の答えのselect文は、id/scoreだけを保持するために使われました。フィルターステートメントがなければ、元のDF(重複を含む)のすべての行を持つことに注意してください。 – David