2017-02-14 15 views

答えて

1
import pyspark.sql.functions as f 
withNoDuplicates = df.withColumn("partitionID", f.spark_partition_id()).dropDuplicates() 

は、基本的にはspark_partition_idを使用してパーティションIDの列を追加して、明確な、それは別に、すべてのパーティションでdropDuplicates後

+0

を異なるパーティションを検討しますか異なるパーティションにあるアイテムを複製しますか? –

+0

@KevinLeo私は質問を理解しているか分からない。 –

+0

「df」には30個のパーティションがあります。各パーティションにpartitionID列とdropDuplicateを追加した後、30個の結果セットが得られます。 30の結果セットをシャッフルして、重複したアイテムを再度確認しますか? –

関連する問題