簡素化データ

私は疑問信頼性のいくつかのデータ・ソースからのデータを持っている：簡素化データ

date  | value  | source 
=================================== 
2011-09-30 | 10.9910 | best 
2011-12-31 | 11.5000 | ok 
2011-12-31 | 11.5290 | best 
2012-03-31 | 12.8477 | ok 
2012-03-31 | 12.4677 | worst 
2012-06-30 | -1.5  | unacceptable

をそして、私は、データ・ソースに基づいて優先順位を、簡単な時系列にそれをクリーンアップします：「最高の」ビートは「最悪のビート」で、「受け入れ難い」ビートを捨てる。私の例では：

date  | value 
======================== 
2011-09-30 | 10.9910 
2011-12-31 | 11.5290 
2012-03-31 | 12.8477 
2012-06-30 | NA   # or just skip this line

どうやってうまくいくのですか？私のサンプルデータのためのdputは次のとおりです。

df = structure(list(date = structure(c(15247, 15339, 15339, 15430, 15430, 15491, 15613, 15613, 15705, 15795, 15795, 15886, 15978, 15978, 15978, 16070, 16070, 16070, 16160, 16160), class = "Date"),  
    value = c(10.991, 11.500, 11.529, 12.8477, 12.4677, 11.542, 12.1203, 12.1146, 12.5053, 13.3556, 13.3628, 13.3372, 13.844, 13.844, 13.8419, 15.3403, 15.3403, 15.3306, 15.202, 15.202 ), 
    source = c("best", "ok", "best", "ok", "worst", "ok", "ok", "worst", "ok", "ok", "worst", "unacceptable", "ok", "best", "worst", "ok", "best", "worst", "ok", "best")), 
    row.names = c(NA, 20L), 
    .Names = c("date", "value", "source"), 
    class = "data.frame")

出典

2017-06-06 lebelinoz

あなたがそれらを考慮して比較することsourceを変換することができます。

library(dplyr) 
df %>% 
    mutate(source=factor(source, c("best", "ok", "worst"))) %>% 
    group_by(date) %>% 
    top_n(-1, source) %>% 
    ungroup() 

# A tibble: 10 x 3 
     date value source 
     <date> <dbl> <fctr> 
1 2011-09-30 10.9910 best 
2 2011-12-31 11.5290 best 
3 2012-03-31 12.8477  ok 
4 2012-05-31 11.5420  ok 
5 2012-09-30 12.1203  ok 
6 2012-12-31 12.5053  ok 
7 2013-03-31 13.3556  ok 
8 2013-09-30 13.8440 best 
9 2013-12-31 15.3403 best 
10 2014-03-31 15.2020 best

出典

2017-06-06 00:18:44 JasonWang

答えて

関連する問題