2つの座標条件の間の距離に一緒に参加する必要がある2つのデータセットがあります。 distance_kmを計算するためにHaversines formulaを使用して関数を作成しましたが、実行に時間がかかるという制約があります。座標間の最も近い距離にある2つのデータフレームを結合する
データセット1:
building_id | lat | lng
-------------|-------|--------
1 | 32.11 | -71.22
2 | 32.44 | -72.25
3 | 31.75 | -71.36```
データセット2:
building_id | lat | lng
------------|-------|--------
4 | 31.65 | -73.52
5 | 32.78 | -70.21
6 | 36.15 | -72.49
各データセットは、それらの中に10,000人以上の建物があり、私は、データセット1にセット2にマッチしたいと思いますが、場合にのみ、 km単位の距離は0.0075未満です。
私は現在、あなたがに任意のデータを提供しなかったので、私はこれを残して
dataset_2_latlng_dict = dict(zip(dataset_2.lng,dataset_2.lat))
for index, row in dataset_1.iterrows():
lat = row['lat']
lng = row['lng']
all_dist = []
final_list = []
for key, value in dataset_2_latlng_dict.iteritems():
distance = utils.distance_km(key,value,lng,lat)
all_dist.extend([distance])
final_list = sorted(all_dist, key=float)
dataset_1['min_distance'] = final_list[0]
テストに使用できるより大きなデータセットがありますか? –