2017-11-28 12 views
1

そこにいる2つのサンプルデータセット:data.table条件式に参加

> aDT 
    col1 col2 ExtractDate 
1: 1 A 2017-01-01 
2: 1 A 2016-01-01 
3: 2 B 2015-01-01 
4: 2 B 2014-01-01 
> bDT 
    col1 col2 date_pol Value 
1: 1 A 2017-05-20  1 
2: 1 A 2016-05-20  2 
3: 1 A 2015-05-20  3 
4: 2 B 2014-05-20  4 

そして、私は必要があります。

> cDT 
    col1 col2 ExtractDate date_pol Value 
1: 1 A 2017-01-01 2016-05-20  2 
2: 1 A 2016-01-01 2015-05-20  3 
3: 2 B 2015-01-01 2014-05-20  4 
4: 2 B 2014-01-01   NA NA 
基本的に

、ADTはCOL1に基づいBDTへの参加、左、COL2とExtractDate> = date_pol最初の試合(つまり、最高のdate_pol)だけを維持してください。 デカルト結合はメモリ制限のためできません。

注: を生成するには、サンプルデータセット

aDT <- data.table(col1 = c(1,1,2,2), col2 = c("A","A","B","B"), ExtractDate = c("2017-01-01","2016-01-01","2015-01-01","2014-01-01")) 
bDT <- data.table(col1 = c(1,1,1,2), col2 = c("A","A","A","B"), date_pol = c("2017-05-20","2016-05-20","2015-05-20","2014-05-20"), Value = c(1,2,3,4)) 
cDT <- data.table(col1 = c(1,1,2,2), col2 = c("A","A","B","B"), ExtractDate = c("2017-01-01","2016-01-01","2015-01-01","2014-01-01") 
        ,date_pol = c("2016-05-20","2015-05-20","2014-05-20",NA), Value = c(2,3,4,NA)) 


aDT[,ExtractDate := ymd(ExtractDate)] 
bDT[,date_pol := ymd(date_pol)] 
aDT[order(-ExtractDate)] 
bDT[order(-date_pol)] 

私が試してみました:

aDT[, c("date_pol", "Value") := 
     bDT[aDT, 
      .(date_pol, Value) 
      ,on = .(date_pol <= ExtractDate 
       ,col1 = col1 
       ,col2 = col2) 
      ,mult = "first"]] 

しかし、結果は奇妙なビットです:私はdata.tableがある場合は

> aDT 
    col1 col2 ExtractDate date_pol Value ##date_pol values not right 
1: 1 A 2017-01-01 2017-01-01  2 
2: 1 A 2016-01-01 2016-01-01  3 
3: 2 B 2015-01-01 2015-01-01  4 
4: 2 B 2014-01-01 2014-01-01 NA 

答えて

2

をiの列は、接頭辞iを使用してj内で参照することができます(例:X[Y, .(val, i.val)])。ここで、valはXの列とi.val Yを参照します。 xの列は、接頭辞xを使用して参照できるようになりました。 xの結合列を参照するために結合中に特に有用です。そうでなければ、iでマスクされます。たとえば、X[Y, .(x.a-i.a, b), on="a"]です。

bDT[aDT, .(col1, col2, i.ExtractDate, x.date_pol, Value), 
    on = .(date_pol <= ExtractDate, col1 = col1, col2 = col2), 
    mult = "first"] 

出力

col1 col2 i.ExtractDate x.date_pol Value 
1: 1 A 2017-01-01 2016-05-20  2 
2: 1 A 2016-01-01 2015-05-20  3 
3: 2 B 2015-01-01 2014-05-20  4 
4: 2 B 2014-01-01  <NA> NA