0
私はSparkR DataFrame
を重複した観測値で持っています。重複を削除する簡単な方法が見つからず、SparkRでPySpark dropDuplicates()
関数を使用できないようです。たとえば、次のようなものがある場合はDataFrame
ですが、fullname
が重複しているという事実に基づいて、2行目と4行目を削除するにはどうすればよいですか?SparkR DataFrameで重複した観測を削除する
newHires <- data.frame(name = c("Thomas", "Thomas", "Bill", "Bill"),
surname = c("Smith", "Smith", "Taylor", "Taylor"),
value = c(1.5, 1.5, 3.2, 3.2))
newHires <- withColumn(newHires, 'fullname', concat(newHires$name, newHires$surname))
|name | surname | value | fullname |
|--------|---------|-------|-----------|
|Thomas | Smith | 1.5 |ThomasSmith|
|Thomas | Smith | 1.5 |ThomasSmith|
|Bill | Taylor | 3.2 |BillTaylor |
|Bill | Taylor | 3.2 |BillTaylor |
ありがとうございます!私が以前にそれを見逃したかどうかは分かりません。 –
アップしていただきありがとうございます。 –