2017-09-13 8 views
0

Spark DataFramesのドロップ重複メソッドは機能していません。私のデータセットの一部であるインデックス列がデータの列として扱われていると思います。そこには重複がありますが、インデックス以外のすべての列でCOUNT()COUNT(DISTINCT())を比較して確認しました。 Spark DataFramesの新機能ですが、この時点でPandasを使用していた場合は、その列にpandas.DataFrame.set_indexを追加します。Spark DataFrame相当のpandas.DataFrame.set_index/drop_duplicatesとdropDuplicatesとの比較

誰もこのような状況を処理する方法を知っていますか?

第2に、Spark DataFrameには、drop_duplicatesdropDuplicatesの2つのメソッドがあるようです。彼らは同じですか?

+0

共有私たちはより良い質問を理解するのに役立ちますどのあなたのコードの一部。 – Munesh

答えて

1

個別のレコードを確認しながらインデックス列を考慮しない場合は、次のコマンドを使用して列を削除するか、必要な列のみを選択します。

df = df.drop('p_index') // Pass column name to be dropped 

df = df.select('name', 'age') // Pass the required columns 

drop_duplicates()は、dropDuplicates()のエイリアスです。

https://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrame.dropDuplicates

+0

ありがとうございました。 Sparkのドキュメントについて私を悩ますものは、何かを検索エンジンに入れたときの半分であり、無駄なドキュメントではなくソースコードに基づいています。さて、アンダースコアなしでドロップコマンドを好むでしょう、なぜそれがエイリアスを必要とするのですか?キーはドキュメントの 'サブセット'引数です。これは、インデックス列に何かをする心配を取り除きます。 – cardamom

関連する問題