2016-05-02 8 views
1

SparkRには、スカラーに存在するdropDuplicates機能(特定の列に基づいて重複する行を削除する)が含まれていますか?dropDuplicates in SparkR

SOFでanswerが見つかりました。しかし、GroupByを使用する代わりに、SparkRにDropDuplicatesをドロップする機能はありますか?すべての列でそれを行うには

答えて

1

、それは「特定の列に基づいて、」それを行うにはdistinct

distinct(x) 

または

unique(x) 

だ、あなたが言ったように、あなたの最善の策はGROUPBYある、などスパークはあなたの「別個ではない」レコードのどれを保持するかを決めることができません。

+0

しかし、これは重複を識別するための列を指定するのをサポートしていません – sag

+0

それを行うための他の機能はないようです。あなたがそのようなものを知っているなら、答えを更新してください。 – sag

+0

私はgroupByが1だと思います。各列に集約関数を提供する必要があることに注意してください。自分で定義することも、maxのような組み込み関数を使うこともできます。例えばdf.groupBy( "key_col").gg(max( "col1")、max( "col2")) – Ashish

関連する問題