Iは、C++を使用してOpenCVのに関数kmeansクラスタリングを行い、12のクラスタ中心(200次元で各)を有してきました。マハラノビス距離
は今、私は200の寸法で点の集合を持っていると私は最も近いクラスタ(ベクトル量子化)を見つけようとしています。
どの距離が他のものよりも優先されますか(マハラノビス距離またはユークリッド距離)?現在、ユークリッド距離を使っています。
Iは、C++を使用してOpenCVのに関数kmeansクラスタリングを行い、12のクラスタ中心(200次元で各)を有してきました。マハラノビス距離
は今、私は200の寸法で点の集合を持っていると私は最も近いクラスタ(ベクトル量子化)を見つけようとしています。
どの距離が他のものよりも優先されますか(マハラノビス距離またはユークリッド距離)?現在、ユークリッド距離を使っています。
Andrey's pointは有効です。
マハラノビス距離の場合、各クラスターの共分散行列を正しく推定できる必要があります。 200次元では、共分散行列クラスターの妥当な推定値が期待できる唯一の方法は、数百から数千のデータポイントのオーダーである。これに12個のクラスタを追加すると、マハラノビス距離を合理的に使用するために数万のデータポイントが簡単に必要になります。
それ以外では、ユークリッド距離がどのように働くのか試してみてください。結果が妥当な場合は、それに固執するか、そうでなければマハラノビスを試してください。
最後に、stats stackexchangeで、この件に関する詳しい知識がある人がいるかもしれません。
コンテキストを知らなくてもそれはできません。良いメトリックや悪いメトリックといったものはなく、それぞれが特定のクラスの問題に適しています。
あなたはプログラムを書くかもしれませんが、あなたの質問はプログラミングとは関係ありません。ドメイン固有の知識に関係しています。 –