SparkR DataFrameで重複した観測を削除する

私はSparkR DataFrameを重複した観測値で持っています。重複を削除する簡単な方法が見つからず、SparkRでPySpark dropDuplicates()関数を使用できないようです。たとえば、次のようなものがある場合はDataFrameですが、fullnameが重複しているという事実に基づいて、2行目と4行目を削除するにはどうすればよいですか？SparkR DataFrameで重複した観測を削除する

newHires <- data.frame(name = c("Thomas", "Thomas", "Bill", "Bill"), 
    surname = c("Smith", "Smith", "Taylor", "Taylor"), 
    value = c(1.5, 1.5, 3.2, 3.2)) 
newHires <- withColumn(newHires, 'fullname', concat(newHires$name, newHires$surname)) 

|name | surname | value | fullname | 
|--------|---------|-------|-----------| 
|Thomas | Smith | 1.5 |ThomasSmith| 
|Thomas | Smith | 1.5 |ThomasSmith| 
|Bill | Taylor | 3.2 |BillTaylor | 
|Bill | Taylor | 3.2 |BillTaylor |

出典

2017-06-20 Gaurav Bansal

が、これは助けhere

希望を参照してください

dropDuplicates(newHire, "fullname")

としてだけでなく、使用することができますsparkR関数 dropDuplicatesがあります！

出典

2017-06-20 15:23:20

ありがとうございます！私が以前にそれを見逃したかどうかは分かりません。 –

アップしていただきありがとうございます。 –

SparkR DataFrameで重複した観測を削除する

答えて

関連する問題