2016-11-27 17 views
-3

私のデータには、100万のLat、Long Coordinateペアがあります。私はhaversine distance measureでDBSCAN alorithmを使用しています。しかし、このアルゴリズムは、これまでのデータ8000レコードのサブセットに対してのみ実行され、データセット全体で実行しようとすると、数秒でメモリ不足になります。誰かがこれを助けることができますか?PythonのDBSCAN - メモリ不足

答えて

0

通常、緯度と経度の間のの距離にあるイプシロンを使用します。

しかし、カウントはまったく使用されません。

一般化 DBSCANをカスタマイズして、そのようなデータにDBSCANを適用してください。通常のDBSCAN(他のクラスタリングアルゴリズムも)は、データのすぐに実行できます。空間自己相関を調べることもできます。