私は機械学習の分野ではかなり新しい(私はそれが非常に面白いと思っても)、私はいくつかのものを適用できる小さなプロジェクトを始めたいと思っていました。人の属性に基づいてクラスタリングするためにどのようなアルゴリズムを使用しますか?
人のデータセットを持っているとしましょう。各人はN個の異なる属性を持っています(離散値のみですが、各属性はほとんど何でもよい)。
同じような振る舞いを持つ人々、つまり属性に類似したパターン(「ルックアライキ」)を持つ人々のクラスタを探したいと考えています。
どうやってこれをやりますか?私を始めるためのあらゆる考えがありますか?
私はPCAを使用することを考えていましたが、それを減らすのに便利な任意の数のディメンションを使用できるためです。 K-Means?この場合、私は確信していません。このような状況に最も適しているものは何ですか?
これらのアルゴリズムをすべてコーディングする方法はわかっていますが、実際にはどのような場合に適用するかを知るための実際の経験がありません。
この場合、私の属性は完全に任意の離散値を持つことができるので、どのように平均を定義しますか? –
人々が離散値を頻繁にモデル化する方法は、それらをバイナリコード化変数に分割することです。たとえば、 "cat"と "dog"の値を持つ "Pet"フィールドがある場合、2つのバイナリ変数 "cat"と "dog"としてコード化します。 –
私はチップのために感謝を参照してください:)私は次元の数が多いので、次元の数を減らすために最初にPCAを使用すると便利ではないでしょうか? –