2017-11-13 16 views
0

私は、費用、注文頻度、注文の幅、各カテゴリでの購入の割合(約20点あります)に基づいて顧客グループをクラスタリングしようとしています。クラスタリングカテゴリ顧客データの購入

これはおそらく簡単な答えでしょうが、%カ​​テゴリの購入列を標準化(平均を引いてsdで除算)する必要があるかどうかはわかりません。私は標準化をしないと、4〜5の主成分(SVDを使用)で説明した分散の約90%を得ることができますが、各列を標準化すると、同じ数の主成分に対して約40%しか得られません。私の心配は、各列が関連しているので、私は標準化によって関係を取り除くことです。同時に、私は標準化していないと、私が標準化したデータの他の変数との問題を引き起こすのではないかと心配しています。

他の人が同様の問題に直面するこのような方法でクラスタリングを試みたが、私はそれが私が状況を理解していないかもしれないので、私は見つけることができないようだと思います。あらかじめご了承ください。

クリス、

答えて

0

パーセンテージ規模が明確に定義された範囲と素敵な特性を有しています。

これらの機能をヒューリスティックにスケーリングすることで、通常、状況が悪化します。

関連する問題