私は約300万サンプルのデータセットを持っています(各々3つのフィーチャーのみ)。私はscikitのsklearn.neighbors
モジュール、具体的にはradius_neighbor_graph
を使用して、特定のサンプルの小さな半径内にあるサンプルを見つけます。サンプルのサブセットに最も近いネイバーを見つける
これはうまくいきますが、意外にも、実際にはこのグラフを計算するのが本当に遅いです。
私のサンプルの小さなサブセット(そのうちの10万〜)については、近隣の人たちだけを知る必要があるため、これも非常に無駄です。このサブセットは事前に分かっています。
だから、サンプルのこの部分集合のために与えられた半径内の近傍を計算することによって、より効率的な方法がありますか?シンプルであるように思えますが、簡単なやり方は考えられません。