2011-12-14 19 views
1

set1set2の2点があります。両方の点の組は、その点に関連するデータを有する。 set1のポイントは「一時的」で、指定された日付にのみ存在します。 set2のポイントは「永久」であり、与えられた日付に構築され、その日付の後に永遠に存在します。2セットの日付間の最近隣の検索

set.seed(1) 
dates <- seq(as.Date('2011-01-01'),as.Date('2011-12-31'),by='days') 

set1 <- data.frame(lat=40+runif(10000), 
lon=-70+runif(10000),date=sample(dates,10000,replace=TRUE)) 

set2 <- data.frame(lat=40+runif(100), 
lon=-70+runif(100),date=sample(dates,100,replace=TRUE)) 

は、ここに私の問題だ:SET1(はかない)の各点について、イベントが発生したSET1される前に構築したSET2(永久)内の最も近い点までの距離を見つけます。例えば、SET1における第一のポイントは、2011年3月18日に発生しました:

> head(set2[set2$date<=as.Date('2011-04-08'),]) 
     lat  lon  date 
1 40.41531 -69.25765 2011-02-18 
7 40.24690 -69.29812 2011-02-19 
13 40.10250 -69.52515 2011-02-12 
14 40.53675 -69.28134 2011-02-27 
17 40.66236 -69.07396 2011-02-17 
20 40.67351 -69.88217 2011-01-04 

> set1[1,] 
     lat  lon  date 
1 40.26551 -69.93529 2011-03-18 

は、だから私は2011年3月18日の前に構築したSET2における最も近い点を見つけたいです追加のしわは、これらが緯度/経度の点であるため、地球の表面に沿った距離を計算する必要があります。 convienent functionを提供fields Rパッケージは、これを実行します

require(fields) 
distMatrix <- rdist.earth(set1[,c('lon','lat')], 
set2[,c('lon','lat')], miles = TRUE) 

私の質問があり、SET2(距離行列の列)のポイントは、ポイントでの後に構築された場合、私はInfにこの行列で距離を調整することができますかset1(距離行列の行)?

答えて

3

は、私がどうなるのかです:

earlierMatrix <- outer(set1$date, set2$date, "<=") 
distMatrix2 <- distMatrix + ifelse(earlierMatrix, Inf, 0) 
+0

非常にエレガント。ありがとうございました! 1小さなバグ:あなたは 'ifelse'ステートメントを逆にしました。 set1 $ date Zach

+0

ありがとう、良いキャッチです。コードがコンパクトになってくると、本当に注意が必要です!もう一つの決定は、あなたがあなたの質問の "BEFORE"によって厳密に暗示されているので、あなたが '' <''や '' '' ''を使うかどうかです。 ;) –

+0

うん、あまりにも動作します。助けてくれてありがとう! – Zach

0

これは私の答えです。特に効率的ではありませんが、正しいと思います。また、あなたが簡単に別の距離計算にサブすることができます:

#Calculate distances 
require(fields) 
distMatrix <- lapply(1:nrow(set1),function(x) { 

    #Find distances to all points 
    distances <- rdist.earth(set1[x,c('lon','lat')], set2[,c('lon','lat')], miles = TRUE) 

    #Set distance to Inf if the set1 point occured BEFORE the set2 dates 
    distances <- ifelse(set1[x,'date']<set2[,'date'], Inf, distances) 

    return(distances) 
}) 
distMatrix <- do.call(rbind,distMatrix) 

#Find distance to closest object 
set1$dist <- apply(distMatrix,1,min) 

#Find id of closest object 
objectID <- lapply(1:nrow(set1),function(x) { 
    if (set1[x,'dist']<Inf) { 
     IDs <- which(set1[x,'dist']==distMatrix[x,]) 
    } else { 
     IDs <- NA 
    } 
    return(sample(IDs,1)) #Randomly break ties (if there are any) 
}) 
set1$objectID <- do.call(rbind,objectID) 

はここで結果のデータセットの先頭です:ここで

> head(set1) 
     lat  lon  date  dist objectID 
1 40.26551 -69.93529 2011-03-18 3.215514  13 
2 40.37212 -69.32339 2011-02-11 10.320910  46 
3 40.57285 -69.26463 2011-02-23 3.954132  4 
4 40.90821 -69.88870 2011-04-24 4.132536  49 
5 40.20168 -69.95335 2011-02-24 4.284692  45 
6 40.89839 -69.86909 2011-07-12 3.385769  57 
関連する問題