私は、1つのホットエンコーディングが特定のデータセット(マトリックス)で使用され、学習アルゴリズムのトレーニングデータとして使用された場合、元のマトリックス自体をトレーニングとして使用するのと比べて、データ。このパフォーマンスの向上はどのように起こりますか?1つのホットエンコーディングが機械学習のパフォーマンスを向上させる理由は何ですか?
答えて
学習アルゴリズムの多くは、機能ごとに1つの重みを学習するか、サンプル間の距離を使用します。前者は、説明しやすいロジスティック回帰などの線形モデルの場合です。
"UK"、 "French"、および "US"という値を持つ単一のカテゴリ機能「国籍」しか持たないデータセットがあるとします。一般性を失うことなく、これらが0,1および2として符号化されると仮定する。線形分類器でこの特徴に対する重みwを有すると、w×x + b> 0という制約に基づいてある種の決定を下す、または等価的にw×x <bである。
今や問題は、重みwが3方向選択をエンコードできないことです。 w×xの3つの可能な値は、0、wおよび2×wである。これらの3つのすべてが同じ決定につながります(彼らはすべて< bまたは≧bです)、または「イギリス」と「フランス語」が同じ決定につながるか、「フランス語」と「米国」が同じ決定を下します。モデルに「英国」と「米国」に同じラベルを、「フランス語」には奇妙なものを付けるべきであるということを知ることはできません。
ワンホットエンコードでは、特徴空間を3つのフィーチャに効果的に吹き飛ばします。これらのフィーチャスペースは、それぞれ独自の重みを取得するため、決定関数は現在[UK] x [UK] + w [FR] x [ FR] + w [US] x [US] < bであり、ここで、すべてのxはブール値である。この空間では、そのような線形関数は、可能性の和/論理和(例えば、英語を話す人の予測子であり得る「英国または米国」)の任意の和/論理和を表現することができる。
同様に、サンプル間の標準距離メトリック(k最近傍など)に基づく学習者は、ワンホットエンコーディングなしで混乱することになります。純粋な符号化とユークリッド距離では、フランスと米国の距離は1です。米国とイギリスの距離は2です。しかし、ワンホットエンコーディングでは、[1,0,0]、[0,1 、0]および[0,0,1]はすべて√2に等しい。
これはすべての学習アルゴリズムでは当てはまりません。意思決定ツリーとランダムフォレストなどの派生モデルは、十分に深い場合は、ワンホットエンコードなしでカテゴリ変数を処理できます。
ワンホットエンコーディングを行うことによって機能が増加するにつれて、機能ハッシングを使用することができます。ハッシュを行うと、バケツの数を新しく導入された機能の数よりはるかに少なく指定できます。
- 1. 機械学習でRの性能を向上させるには?
- 2. 機械学習で学習曲線とは何ですか?
- 3. いくつかの機械学習アルゴリズムは何ですか
- 4. 機械学習の学習に最適なプログラミング言語は何ですか?
- 5. 機械学習画像処理のメモリエラー
- 6. ロボットでの機械学習
- 7. 機械学習が幾何学に適用された
- 8. 機械学習、Python
- 9. 機械学習システム
- 10. 機械学習udacity
- 11. Python - 機械学習
- 12. 機械学習モデルテスト
- 13. 機械学習ソフトウェアの確率の役割は何ですか?
- 14. Azure Machineの学習能力を向上させる学習スペース
- 15. 深い学習と機械学習
- 16. 機械学習データ前処理
- 17. 機械学習では過ぎとノイズは何ですか?
- 18. 機械学習のヌルクラス
- 19. 機械学習のJavaライブラリ
- 20. 機械学習データのフォーマット
- 21. GATEの機械学習
- 22. 機械学習の提案
- 23. C#の機械学習ライブラリ
- 24. Azureの機械学習 - データセット
- 25. 画像からの照明方向推定の機械学習?
- 26. 機械学習で欠損データを処理する方法は?
- 27. 機械学習で長いオーディオクリップを処理する方法は?
- 28. 機械学習に関してベクトルとは何ですか
- 29. 補強機械学習とは何ですか?
- 30. 機械学習 - 分類アルゴリズム
この回答は本当に良いです。ありがとう。 – goh
このLarsをいただきありがとうございますが、効果的に機能の数を増やしているOneHotEncodingを実行した場合、オーバーフィットしないようにサンプルを増やす必要はありません。 – Manoj
@Manoj各レベルを別個の整数として符号化した、明示的なカテゴリ変数の代替表現と比較して、私は重要ではないと考えています。 –