1
フルパーティションではなく、すべてのパーティションでdropDuplicates
とします。SPARK:すべてのパーティションでdropDuplicatesのみ
これはPySparkで可能ですか?ありがとう。スパークシャッフルして再dropDuplicatesが再び可能に削除するん
フルパーティションではなく、すべてのパーティションでdropDuplicates
とします。SPARK:すべてのパーティションでdropDuplicatesのみ
これはPySparkで可能ですか?ありがとう。スパークシャッフルして再dropDuplicatesが再び可能に削除するん
import pyspark.sql.functions as f
withNoDuplicates = df.withColumn("partitionID", f.spark_partition_id()).dropDuplicates()
は、基本的にはspark_partition_idを使用してパーティションIDの列を追加して、明確な、それは別に、すべてのパーティションでdropDuplicates後
を異なるパーティションを検討しますか異なるパーティションにあるアイテムを複製しますか? –
@KevinLeo私は質問を理解しているか分からない。 –
「df」には30個のパーティションがあります。各パーティションにpartitionID列とdropDuplicateを追加した後、30個の結果セットが得られます。 30の結果セットをシャッフルして、重複したアイテムを再度確認しますか? –