0

私は顧客がキャンペーン(航空会社の場合)に加入するかどうかを予測しているバイナリ分類の問題を抱えています。分類の問題でダミー変数を取るのはいつですか?

私のデータセットは顧客名とキャンペーン名のレベルであり、検討中の変数は43個あります。

デシル(1から10)と教育レベル(0から5)のような変数があります。教育のレベルでは、4が2の2倍になるとは言えません。変数をどのように扱うべきですか?

私は、私はダミー変数にこれらを変換する場合、私は変数の重要度を確認することができますどのようにR. にロジスティック回帰、ランダムフォレスト、Xgboostを実行していますダミー変数(0または1)にこれらの変数を変換する必要がありますか(因子分析はエラーを投げている)

答えて

0

私の意見では、ダミー変数が必要です。どのようにこのような複数の変数にeducational levelの変換について:

educational level:1

educational level:2

educational level:3

のように。次に、それぞれの変数にダミー変数を与えることができます。

例えば、

educational level:1はい:1いいえ:0

educational level:2はい:1いいえ:0

その後ロジスティックモデルにデータをフィットし、方法のいくつかの種類とそれをリサンプリングしてみてください「クロスバリデーション」のように。しかし、私はかなり確信していません"variable importance"、あなたはこの変数は統計的に意味があるのですか... ...?

関連する問題