dropDuplicates in SparkR

SparkRには、スカラーに存在するdropDuplicates機能（特定の列に基づいて重複する行を削除する）が含まれていますか？dropDuplicates in SparkR

SOFでanswerが見つかりました。しかし、GroupByを使用する代わりに、SparkRにDropDuplicatesをドロップする機能はありますか？すべての列でそれを行うには

2016-05-02 sag

、それは「特定の列に基づいて、」それを行うにはdistinct

distinct(x)

または

unique(x)

だ、あなたが言ったように、あなたの最善の策はGROUPBYある、などスパークはあなたの「別個ではない」レコードのどれを保持するかを決めることができません。

2016-05-02 07:42:12 Ashish

しかし、これは重複を識別するための列を指定するのをサポートしていません – sag

それを行うための他の機能はないようです。あなたがそのようなものを知っているなら、答えを更新してください。 – sag

私はgroupByが1だと思います。各列に集約関数を提供する必要があることに注意してください。自分で定義することも、maxのような組み込み関数を使うこともできます。例えばdf.groupBy（ "key_col"）.gg（max（ "col1"）、max（ "col2"）） – Ashish

答えて