2017-06-12 9 views
2

私は、重複している大きなデータフレーム(≈2M観測値)を持っています。私はそれらの重複を削除するつもりですが、重複していない値を、欠落していない別の値(NA)を条件として保持する必要があります。それは、非NAがある限り、想像できるどんな値でもよい。例:グループを欠損値で表示するDplyr

data <- airquality 
data[4:10,3] <- rep(NA,7) 
data[1:5,4] <- NA 

library(dplyr) 

new.data <- data %>% 
    group_by(Ozone) %>% 
    filter(Wind==????)) 

ここでは、「風== ????」という注釈を付けてフィルタリングする内容がわかりません。任意の値(数値または公称値)がWind列にある限り、これらの一意の値を保持し、欠損値以外の条件付き値を削除したいと考えています。

ありがとうございました!

+3

あなたが 'データ%>%GROUP_BY(オゾン)%>%フィルタ(!重複(風)&!is.na(風))たかったを行うことができます' – akrun

+0

があなたをありがとう助けて – Starbucks

答えて

2

我々は

data %>% 
    group_by(Ozone) %>% 
    filter(!duplicated(Wind) & !is.na(Wind)) 
関連する問題