2012-02-23 30 views
3

Iは、C++を使用してOpenCVの関数kmeansクラスタリングを行い、12のクラスタ中心(200次元で各)を有してきました。マハラノビス距離

は今、私は200の寸法で点の集合を持っていると私は最も近いクラスタベクトル量子化)を見つけようとしています。

どの距離が他のものよりも優先されますか(マハラノビス距離またはユークリッド距離)?現在、ユークリッド距離を使っています。

+2

あなたはプログラムを書くかもしれませんが、あなたの質問はプログラミングとは関係ありません。ドメイン固有の知識に関係しています。 –

答えて

4

Andrey's pointは有効です。

マハラノビス距離の場合、各クラスターの共分散行列を正しく推定できる必要があります。 200次元では、共分散行列クラスターの妥当な推定値が期待できる唯一の方法は、数百から数千のデータポイントのオーダーである。これに12個のクラスタを追加すると、マハラノビス距離を合理的に使用するために数万のデータポイントが簡単に必要になります。

それ以外では、ユークリッド距離がどのように働くのか試してみてください。結果が妥当な場合は、それに固執するか、そうでなければマハラノビスを試してください。

最後に、stats stackexchangeで、この件に関する詳しい知識がある人がいるかもしれません。

4

コンテキストを知らなくてもそれはできません。良いメトリックや悪いメトリックといったものはなく、それぞれが特定のクラスの問題に適しています。