私は1000サンプルのトレーニングデータセットを持っています。これには約50の特徴が含まれており、そのうちの30はカテゴリ的特徴であり、残りは数値/連続特徴である。どのアルゴリズムが、カテゴリ型および連続型の両方の機能の混合機能を処理するのに最適ですか?混合したカテゴリカルと数値の機械学習アルゴリズム
0
A
答えて
1
一般的には、すべての機能を標準化された連続機能に変換することをお勧めします。本来連続した機能について
、標準化を行う:X_I =(X_I - 平均(X))/ standard_deviation(X)を。つまり、各フィーチャに対して、フィーチャの平均を減算し、フィーチャの標準偏差で除算します。別のアプローチは、連続フィーチャを範囲[0,1]に変換することです。x_i =(x_i - min(x))/(max(x) - min(x))カテゴリ機能について
、各値が0.0または1.0の値をとる連続可変となるようにそれらの上に二値化を行います。たとえば、MALE、FEMALE、およびNAの値をとることができるカテゴリ変数 "gender"がある場合は、3つのバイナリバイナリ変数IS_MALE、IS_FEMALE、およびIS_NAを作成します。各変数は0.0または1.0です。手順1のように標準化を実行できます。
これで、すべての機能が標準化された連続変数として使用できました。
関連する問題
- 1. 機械学習 - 分類アルゴリズム
- 2. 反復機械学習アルゴリズム
- 3. 可変長の数値シーケンスの機械学習アルゴリズム
- 4. 深い学習と機械学習
- 5. 機械学習アルゴリズムは、学習したデータをコピーしますか?
- 6. 機械学習:どのアルゴリズムが答える質問に合う
- 7. 次の値を予測する機械学習アルゴリズム
- 8. 機械学習 - SVM機能融合テクニック
- 9. テキストマイニングと機械学習
- 10. 機械学習、Python
- 11. 機械学習システム
- 12. 機械学習udacity
- 13. Python - 機械学習
- 14. 機械学習モデルテスト
- 15. 2次元座標を値にマッピングする機械学習アルゴリズム
- 16. 機械学習アルゴリズム - ブースティング、相互作用深さの数、d
- 17. Apache Spark:複数機械学習アルゴリズムの並列化
- 18. 感情分析のための機械学習アルゴリズムの作業
- 19. 屋内温度予測のための機械学習アルゴリズム
- 20. 機械学習を使用した数値予測
- 21. 機械学習のヌルクラス
- 22. ロボットでの機械学習
- 23. 機械学習のJavaライブラリ
- 24. 機械学習データのフォーマット
- 25. GATEの機械学習
- 26. 機械学習の提案
- 27. C#の機械学習ライブラリ
- 28. Azureの機械学習 - データセット
- 29. 機械学習と進化アルゴリズムを比較できますか?
- 30. 機械学習:機能の数が異なる場合のPCA
はい、私はあなたが示唆しただけのような数値の機能にすべてのカテゴリの機能を変換し、しかし範囲大きい給料のような実際の数値機能とは対照的に、これらの機能は、0または1の値のみを持つことができます。カテゴリの特徴については、Naive Bayesのような確率的アルゴリズムかもしれないが、おそらくより正確であり、すべての連続的な特徴に対して、SVMのようなものはより良く働くかもしれない。しかし、カテゴリ型と連続型の両方の機能をうまく組み合わせたユースケースの方がうまくいくアルゴリズムがありますか?ところで、これはバイナリ分類の問題です。 – user3207663
カテゴリのフィーチャを整数(0または1)ではなく、連続/浮動小数点(0.0または1.0のいずれか)に変換します。これにより、後であなたのMLアルゴリズムで必要な計算を実行することができます。 – stackoverflowuser2010