2016-11-05 14 views
0

私は1000サンプルのトレーニングデータセットを持っています。これには約50の特徴が含まれており、そのうちの30はカテゴリ的特徴であり、残りは数値/連続特徴である。どのアルゴリズムが、カテゴリ型および連続型の両方の機能の混合機能を処理するのに最適ですか?混合したカテゴリカルと数値の機械学習アルゴリズム

答えて

1

一般的には、すべての機能を標準化された連続機能に変換することをお勧めします。本来連続した機能について

  1. 、標準化を行う:X_I =(X_I - 平均(X))/ standard_deviation(X)を。つまり、各フィーチャに対して、フィーチャの平均を減算し、フィーチャの標準偏差で除算します。別のアプローチは、連続フィーチャを範囲[0,1]に変換することです。x_i =(x_i - min(x))/(max(x) - min(x))カテゴリ機能について

  2. 、各値が0.0または1.0の値をとる連続可変となるようにそれらの上に二値化を行います。たとえば、MALE、FEMALE、およびNAの値をとることができるカテゴリ変数 "gender"がある場合は、3つのバイナリバイナリ変数IS_MALE、IS_FEMALE、およびIS_NAを作成します。各変数は0.0または1.0です。手順1のように標準化を実行できます。

これで、すべての機能が標準化された連続変数として使用できました。

+0

はい、私はあなたが示唆しただけのような数値の機能にすべてのカテゴリの機能を変換し、しかし範囲大きい給料のような実際の数値機能とは対照的に、これらの機能は、0または1の値のみを持つことができます。カテゴリの特徴については、Naive Bayesのような確率的アルゴリズムかもしれないが、おそらくより正確であり、すべての連続的な特徴に対して、SVMのようなものはより良く働くかもしれない。しかし、カテゴリ型と連続型の両方の機能をうまく組み合わせたユースケースの方がうまくいくアルゴリズムがありますか?ところで、これはバイナリ分類の問題です。 – user3207663

+0

カテゴリのフィーチャを整数(0または1)ではなく、連続/浮動小数点(0.0または1.0のいずれか)に変換します。これにより、後であなたのMLアルゴリズムで必要な計算を実行することができます。 – stackoverflowuser2010

関連する問題