2016-07-21 8 views
-1

DBSCANアルゴリズムを使用してデータセットに対してクラスタリングを実行します。問題は、データに郵便番号や通貨などの名目属性があることです。どのようにこれらの値を扱うか考えていますか?データマイニング:DBSCAN algoによる名目属性のクラスタリング

+0

[質問](http://stats.stackexchange.com/questions/130974/how-to-use-both-binary-and-continuous-variables-together-in-clustering)を確認してください。 – Marcel10

答えて

0

つのオプション:

  1. は、必要に応じてこれらの属性を処理するカスタム距離関数を定義します。たとえば、郵便番号の場合は、近接を検索する必要があります。

  2. 汎用DBSCANを使用し、カスタムネイバー述部を定義します。例えば、隣接する郵便番号の属性値は似ています。

郵便番号でワンホットエンコードを使用しないでください。それはあまり意味がありません。より効率的なカテゴリ属性にハミング距離を使用することもできます(オプション1を参照)。

関連する問題