R - 緯度/経度の巨大なデータフレームを場所に応じてグループに分割する

私はRで新しいですが、実際にはforループを使用することは悪い考えです。私はそれらを使ってコードを作業していますが、大きなデータでは非常に遅いので、改善したいと思います。アルゴリズムを改善する方法をいくつか知っていますが、これをベクトル化する方法はわかりません。または、forループなしで行う方法です。R - 緯度/経度の巨大なデータフレームを場所に応じてグループに分割する

私は単に緯度/経度点をパラメータとして半径を持つ円にグループ化しています。

関数（のみCIRCLE_ID列の値を満たす）の出力例は、半径が100メートルに設定した：

[1] "Locations: " 
    latitude longitude sensor_time sensor_time2   circle_id 
    48.15144 17.07569 1447149703 2015-11-10 11:01:43   1 
    48.15404 17.07452 1447149743 2015-11-10 11:02:23   2 
    48.15277 17.07514 1447149762 2015-11-10 11:02:42   3 
    48.15208 17.07538 1447149771 2015-11-10 11:02:51   1 
    48.15461 17.07560 1447149773 2015-11-10 11:02:53   4 
    48.15139 17.07562 1447149811 2015-11-10 11:03:31   1 
    48.15446 17.07517 1447149866 2015-11-10 11:04:26   2 
    48.15266 17.07330 1447149993 2015-11-10 11:06:33   5

がだから、ループ2を有する、LOOP1は、すべてのラインを通過し、LOOP2が進みます以前のすべてのcircle_idを通って、loop1からの現在の位置がloop2からの既存の円の半径内にあるかどうかをチェックする。各circle_idの中心は、前のすべての半径の外側にある最初の位置です。

ここでは、コードです：

init_circles = function(datfr, radius) { 
    cnt = 1 
    datfr$circle_id[1] = 1 
    longitude = datfr$longitude[1] 
    latitude = datfr$latitude[1] 
    circle_id = datfr$circle_id[1] 
    datfr2 <- data.frame(longitude, latitude, circle_id) 

    for (i in 2:NROW(datfr)) { 
     for (j in 1:NROW(datfr2)) { 
     tmp = distHaversine(c(datfr$longitude[i],datfr$latitude[i]) ,c(datfr2$longitude[j],datfr2$latitude[j])) 
     if (tmp < radius){ 
      datfr$circle_id[i] = datfr2$circle_id[j] 
      break 
     } 
     } 
     if (datfr$circle_id[i]<1){ 
     cnt = cnt +1 
     datfr$circle_id[i] = cnt 
     datfr2[nrow(datfr2)+1,] = c(datfr$longitude[i],datfr$latitude[i],datfr$circle_id[i]) 
     } 
    } 
    return(datfr) 
}

datfrはCIRCLE_IDのセットなしの入力データフレームであり、datfr2は、既存の円を含む一時的なデータフレームです。

EDIT：ここで視覚的な出力である：

あなたが見ることができ、これらの円は、上側の赤い円は、その半径内に収まる21台の他の位置を有するために使用されるものは、（21 + 1元= 22）

はアレナ

出典

2016-11-30 ayshelina

は、私たちは、それぞれの円の中心と半径を持つデータフレームcirclesを持っていると仮定し、あなたの質問に投稿されたサンプルデータは、データフレームに呼び出されたことをしました、助けてありがとうございましたdat。以下のコードは距離計算をベクトル化し、各円の中心から各点までの距離を計算し、各点がその円の半径内にあるかどうかを判断するためにlapplyを使用します。

library(geosphere) 

# We'll check the distance of each data point from the center of each 
# of these circles 
circles = data.frame(ID=1:2, lon=c(17.074, 17.076), lat=c(48.1513, 48.15142), 
        radius=c(180,190)) 

datNew = lapply(1:nrow(circles), function(i) { 

    df = dat 

    df$dist = distHaversine(df[,c("longitude", "latitude")], 
          circles[rep(i,nrow(df)), c('lon','lat')]) 

    df$in_circle = ifelse(df$dist <= circles[i, "radius"], "Yes", "No") 

    df$circle_id = circles[i, "ID"] 

    df 

}) 

datNew = do.call(rbind, datNew) 

datNew

latitude longitude sensor_time sensor_time2 time3  dist in_circle circle_id 
1 48.15144 17.07569 1447149703 2015-11-10 11:01:43 126.47756  Yes   1 
2 48.15404 17.07452 1447149743 2015-11-10 11:02:23 307.45048  No   1 
3 48.15277 17.07514 1447149762 2015-11-10 11:02:42 184.24465  No   1 
4 48.15208 17.07538 1447149771 2015-11-10 11:02:51 134.32601  Yes   1 
5 48.15461 17.07560 1447149773 2015-11-10 11:02:53 387.15358  No   1 
6 48.15139 17.07562 1447149811 2015-11-10 11:03:31 120.73138  Yes   1 
7 48.15446 17.07517 1447149866 2015-11-10 11:04:26 362.34236  No   1 
8 48.15266 17.07330 1447149993 2015-11-10 11:06:33 160.07179  Yes   1 
9 48.15144 17.07569 1447149703 2015-11-10 11:01:43 23.13059  Yes   2 
10 48.15404 17.07452 1447149743 2015-11-10 11:02:23 311.68096  No   2 
11 48.15277 17.07514 1447149762 2015-11-10 11:02:42 163.29068  Yes   2 
12 48.15208 17.07538 1447149771 2015-11-10 11:02:51 86.70762  Yes   2 
13 48.15461 17.07560 1447149773 2015-11-10 11:02:53 356.34955  No   2 
14 48.15139 17.07562 1447149811 2015-11-10 11:03:31 28.41890  Yes   2 
15 48.15446 17.07517 1447149866 2015-11-10 11:04:26 343.97933  No   2 
16 48.15266 17.07330 1447149993 2015-11-10 11:06:33 243.44024  No   2

だから我々は今、各点が与えられた円の内側にあるかどうかを告げデータフレームを持っています。データフレームは長形式であり、元のデータフレームdatの各ポイントに対してn行が存在することを意味し、nはcirclesデータフレームの行数です。ここから、複数のサークルにある各ポイントに対して1行だけを保持するなど、さらなる処理を行うことができます。

ここでは例を示します。私たちは、ポイントがの内側にある一周データフレームのリストを返す、またはポイントは、任意の円内にない場合は「None」を返さないだろう：私の意見では

library(dplyr) 

datNew %>% 
    group_by(latitude, longitude) %>% 
    summarise(in_which_circles = if(any(in_circle=="Yes")) paste(circle_id[in_circle=="Yes"], collapse=",") else "None")

latitude longitude in_which_circles 
    <dbl>  <dbl>   <chr> 
1 48.15139 17.07562    1,2 
2 48.15144 17.07569    1,2 
3 48.15208 17.07538    1,2 
4 48.15266 17.07330    1 
5 48.15277 17.07514    2 
6 48.15404 17.07452    None 
7 48.15446 17.07517    None 
8 48.15461 17.07560    None

出典

2016-11-30 21:31:15 eipi10

http://i67.tinypic.com/vgnc0o.pngここでは、それらの円がどのように使われているかを見ることができます。上部の赤丸は、その半径内に収まる21の他の場所を持っています（21 + 1オリジナル= 22） – ayshelina

If私はあなたの絵を理解し、各円の中心と各円の半径の緯度と経度を持つデータフレームが必要です。次に、サンプルデータの各点の各円の中心からの距離を計算し、それが半径内にあるかどうか。しかし、私はまだあなたが出力をしたいものを理解していません。与えられた点が複数の円の中にある場合はどうなりますか？ – eipi10

私が理解していることから、これは理にかなっており、達成したい視覚的出力に十分なはずです。しかし、私は確かにする必要があります:) – ayshelina

、USNG ののループは必要ありませんが、ループを使用して入れ子にするよりもコードをきれいにすることを好む場合があります。を適用してください。

library(dplyr) 
library(tidyr) 
library(purrr) 

# I only load the coordinate for now 
df <- tibble(latitude = c(48.15144, 48.15404, 48.15277, 48.15208, 48.15461, 48.15139, 48.15446, 48.15266), 
      longitude = c(17.07569, 17.07452, 17.07514, 17.07538, 17.07560, 17.07562, 17.07517, 17.07330)) 

df %>% 
    unite(coord, latitude, longitude, sep = ", ") %>% 
    mutate(coord2 = coord) %>% 
    expand(coord, coord2) %>% 
    mutate(coord = map(coord, function(x) {xx <- as.numeric(unlist(strsplit(x, ","))); tibble(lat = xx[1], lon = xx[2])})) %>% 
    mutate(coord2 = map(coord2, function(x) {xx <- as.numeric(unlist(strsplit(x, ","))); tibble(lat2 = xx[1], lon2 = xx[2])})) %>% 
    unnest() %>% 
    rowwise() %>% 
    mutate(dist = distHaversine(c(lon, lat), c(lon2, lat2))) %>% 
    group_by(lat, lon) %>% 
    mutate(group = 1:n()) %>% 
    group_by(group) %>% 
    filter(dist < 100) %>% 
    group_by(lat, lon) %>% 
    summarise(group = min(group))

あなたは座標のさまざまなアイデアで終わる：

しかし、あなたの場合、あなたはこのような何かを試みることができます。ただし、データの順序は失われます。

出典

2016-11-30 21:35:53 denrou

R - 緯度/経度の巨大なデータフレームを場所に応じてグループに分割する

答えて

関連する問題