離散属性と連続属性の両方でクラスタリングを実行するための優れたアルゴリズムを知っている人はいますか?私は類似した顧客のグループを特定する問題に取り組んでおり、各顧客は離散的かつ連続的な属性(顧客のタイプ、この顧客によって生み出された収益の金額、地理的位置など)を有する。離散的および連続的な属性を持つクラスタリングアルゴリズム?
K-meansやEMが連続属性のために働く場合、連続属性と離散属性が混在しているとどうなりますか?
離散属性と連続属性の両方でクラスタリングを実行するための優れたアルゴリズムを知っている人はいますか?私は類似した顧客のグループを特定する問題に取り組んでおり、各顧客は離散的かつ連続的な属性(顧客のタイプ、この顧客によって生み出された収益の金額、地理的位置など)を有する。離散的および連続的な属性を持つクラスタリングアルゴリズム?
K-meansやEMが連続属性のために働く場合、連続属性と離散属性が混在しているとどうなりますか?
私が正しく覚えていれば、COBWEBアルゴリズムは離散属性で動作する可能性があります。
また、意味のある距離メトリックを作成するために、離散属性とは異なる「トリック」を行うこともできます。
カテゴリ/離散属性のクラスタリングについては、最初のヒットの1つであるROCK: A Robust Clustering Algorithm for Categorical Attributesのいずれかをgoogleすることができます。
affinity propagationも可能です。 しかし、連続的/離散的ジレンマを克服するには、離散状態を評価する関数を定義する必要があります。
私は実際には、ユーザーに個別の属性のペアを提示し、それらの近接性を定義するように依頼します。あなたは、[類義語は非常に外国語]または同様のものに達するスケールでそれらを提示するでしょう。多くの人がこれを行うと、非線形属性値のための広く受け入れられた近接関数になります。
Rはクラスタリングに最適なツールです。標準的な方法は、混合データの相違度行列をdaisy
で計算し、その行列をagnes
でクラスタリングすることです。
cba
module on CRANには、ROCKに基づいてバイナリ予測子をクラスタリングする機能が含まれています。
各カテゴリー属性を一連のN-1バイナリー標識属性(Nはカテゴリー数)に変換する方法はありますか? 疎な表現(マハウトのSequentialAccessSparseVector
など)が高い次元性を恐れてはいけません。 これを実行すると、古典的なK平均法や、数値限定クラスタリングアルゴリズムを使用できます。