私はここで短い質問があります。私はワンホットエンコーディングをいつ使うべきか、どのような状況でダミー変数を使うべきかを知りたい。ワンホットエンコーディングを使用するタイミングとダミー変数を使用するタイミング
カテゴリ変数と数値変数を使用してクラスタリング分析を行う予定です。 1つのフォーラムで、ワンホットエンコーディングを使用してカテゴリ変数をエンコードしようとしています。しかし、ダミー変数とは何が違うのだろうか。
ありがとう
私はここで短い質問があります。私はワンホットエンコーディングをいつ使うべきか、どのような状況でダミー変数を使うべきかを知りたい。ワンホットエンコーディングを使用するタイミングとダミー変数を使用するタイミング
カテゴリ変数と数値変数を使用してクラスタリング分析を行う予定です。 1つのフォーラムで、ワンホットエンコーディングを使用してカテゴリ変数をエンコードしようとしています。しかし、ダミー変数とは何が違うのだろうか。
ありがとう
ほとんどのクラスタリングアルゴリズムは距離ベースです。
このようなエンコードは、分類データを数字であるかのように見せかけるためのハックですが、フィーチャの正規化、重み付け、逆相関、およびフィーチャの結合方法の問題を先送りします。
ほとんどのクラスタリングアルゴリズムでは、ダミーエンコードを0,1、0,100000、0,0.000001のいずれの方法で行っても大きな違いがあります。あなたはどちらを使うべきですか?これに客観的な数学的な答えはなく、重大な問題を引き起こします。
主な違いは、ダミーエンコードでは通常、列の1つが削除されることです。例えば。 3つのレベルを持つ変数は、2つのダミー変数と3つのホットコード化された変数を取得します。これは、あなたがマルチ共線性を持たないようにするためです。ワンホットエンコーディングは完全ダミーエンコーディングとも呼ばれます。
私の意見では同じことです。ワンホットコード化された変数はダミー変数で[同じ](https://www.reddit.com/r/MLQuestions/comments/5bhmvz/whats_the_difference_between_one_hot_encoding_and/)です。 –