9
Iは、グループID、2回の距離測定(経度/緯度型尺度)、および値を含むデータフレームを有しています。距離の特定のセットのために、私は近くの他のグループの数、と近くのものを他のグループの平均値を見つけたいです。近くのグループの計算を高速化しますか?
私は、次のコードを書いたが、それは単に非常に大規模なデータセットのための合理的な時間内に完了しないように非効率的です。近くの小売業者の計算は迅速です。しかし、近くの小売店の平均値の計算は非常に遅いです。これをより効率的にするためのより良い方法はありますか?
distances = [1,2]
df = pd.DataFrame(np.random.randint(0,100,size=(100, 4)),
columns=['Group','Dist1','Dist2','Value'])
# get one row per group, with the two distances for each row
df_groups = df.groupby('Group')[['Dist1','Dist2']].mean()
# create KDTree for quick searching
tree = cKDTree(df_groups[['Dist1','Dist2']])
# find points within a given radius
for i in distances:
closeby = tree.query_ball_tree(tree, r=i)
# put into density column
df_groups['groups_within_' + str(i) + 'miles'] = [len(x) for x in closeby]
# get average values of nearby groups
for idx, val in enumerate(df_groups.index):
val_idx = df_groups.iloc[closeby[idx]].index.values
mean = df.loc[df['Group'].isin(val_idx), 'Value'].mean()
df_groups.loc[val, str(i) + '_mean_values'] = mean
# merge back to dataframe
df = pd.merge(df, df_groups[['groups_within_' + str(i) + 'miles',
str(i) + '_mean_values']],
left_on='Group',
right_index=True)