2017-06-20 12 views
0

私はSparkR DataFrameを重複した観測値で持っています。重複を削除する簡単な方法が見つからず、SparkRでPySpark dropDuplicates()関数を使用できないようです。たとえば、次のようなものがある場合はDataFrameですが、fullnameが重複しているという事実に基づいて、2行目と4行目を削除するにはどうすればよいですか?SparkR DataFrameで重複した観測を削除する

newHires <- data.frame(name = c("Thomas", "Thomas", "Bill", "Bill"), 
    surname = c("Smith", "Smith", "Taylor", "Taylor"), 
    value = c(1.5, 1.5, 3.2, 3.2)) 
newHires <- withColumn(newHires, 'fullname', concat(newHires$name, newHires$surname)) 

|name | surname | value | fullname | 
|--------|---------|-------|-----------| 
|Thomas | Smith | 1.5 |ThomasSmith| 
|Thomas | Smith | 1.5 |ThomasSmith| 
|Bill | Taylor | 3.2 |BillTaylor | 
|Bill | Taylor | 3.2 |BillTaylor | 

答えて

1

が、これは助けhere

希望を参照してください

dropDuplicates(newHire, "fullname") 

としてだけでなく、使用することができますsparkR関数 dropDuplicatesがあります!

+0

ありがとうございます!私が以前にそれを見逃したかどうかは分かりません。 –

+0

アップしていただきありがとうございます。 –

関連する問題