Spark DataFrame相当のpandas.DataFrame.set_index/drop_duplicatesとdropDuplicatesとの比較

Spark DataFramesのドロップ重複メソッドは機能していません。私のデータセットの一部であるインデックス列がデータの列として扱われていると思います。そこには重複がありますが、インデックス以外のすべての列でCOUNT()とCOUNT(DISTINCT())を比較して確認しました。 Spark DataFramesの新機能ですが、この時点でPandasを使用していた場合は、その列にpandas.DataFrame.set_indexを追加します。Spark DataFrame相当のpandas.DataFrame.set_index/drop_duplicatesとdropDuplicatesとの比較

誰もこのような状況を処理する方法を知っていますか？

第2に、Spark DataFrameには、drop_duplicatesとdropDuplicatesの2つのメソッドがあるようです。彼らは同じですか？

出典

2017-09-13 cardamom

共有私たちはより良い質問を理解するのに役立ちますどのあなたのコードの一部。 – Munesh

個別のレコードを確認しながらインデックス列を考慮しない場合は、次のコマンドを使用して列を削除するか、必要な列のみを選択します。

df = df.drop('p_index') // Pass column name to be dropped 

df = df.select('name', 'age') // Pass the required columns

drop_duplicates（）は、dropDuplicates（）のエイリアスです。

https://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrame.dropDuplicates

出典

2017-09-13 17:47:18 Munesh

ありがとうございました。 Sparkのドキュメントについて私を悩ますものは、何かを検索エンジンに入れたときの半分であり、無駄なドキュメントではなくソースコードに基づいています。さて、アンダースコアなしでドロップコマンドを好むでしょう、なぜそれがエイリアスを必要とするのですか？キーはドキュメントの 'サブセット'引数です。これは、インデックス列に何かをする心配を取り除きます。 – cardamom

Spark DataFrame相当のpandas.DataFrame.set_index/drop_duplicatesとdropDuplicatesとの比較

答えて

関連する問題