Spark DataFramesのドロップ重複メソッドは機能していません。私のデータセットの一部であるインデックス列がデータの列として扱われていると思います。そこには重複がありますが、インデックス以外のすべての列でCOUNT()
とCOUNT(DISTINCT())
を比較して確認しました。 Spark DataFramesの新機能ですが、この時点でPandasを使用していた場合は、その列にpandas.DataFrame.set_index
を追加します。Spark DataFrame相当のpandas.DataFrame.set_index/drop_duplicatesとdropDuplicatesとの比較
誰もこのような状況を処理する方法を知っていますか?
第2に、Spark DataFrameには、drop_duplicates
とdropDuplicates
の2つのメソッドがあるようです。彼らは同じですか?
共有私たちはより良い質問を理解するのに役立ちますどのあなたのコードの一部。 – Munesh