SPARK：すべてのパーティションでdropDuplicatesのみ

フルパーティションではなく、すべてのパーティションでdropDuplicatesとします。SPARK：すべてのパーティションでdropDuplicatesのみ

これはPySparkで可能ですか？ありがとう。スパークシャッフルして再dropDuplicatesが再び可能に削除するん

2017-02-14 Kevin Leo

import pyspark.sql.functions as f 
withNoDuplicates = df.withColumn("partitionID", f.spark_partition_id()).dropDuplicates()

は、基本的にはspark_partition_idを使用してパーティションIDの列を追加して、明確な、それは別に、すべてのパーティションでdropDuplicates後

2017-02-14 07:41:00

を異なるパーティションを検討しますか異なるパーティションにあるアイテムを複製しますか？ –

@KevinLeo私は質問を理解しているか分からない。 –

「df」には30個のパーティションがあります。各パーティションにpartitionID列とdropDuplicateを追加した後、30個の結果セットが得られます。 30の結果セットをシャッフルして、重複したアイテムを再度確認しますか？ –

答えて