2017-09-29 3 views
0

私は、年齢証明、教育レベル、リレーションシップマネージャーコードなどの主にカテゴリ変数を持つ保険詐欺データセットに取り組んでいます。異常を検出している間にカテゴリ変数を扱うにはどうすればよいですか?

そのデータセットの異常を検出するために、私は頻度カウントに基づいてカテゴリに数値を変換し、レベルの割合を計算しました。

これは正しい方法ですか?そうでない場合は、異常値を検出している間にカテゴリ変数を扱う方法を提案してください。

答えて

0

周波数はうまくいくはずですが、ラベルを使用してすべてのデータセットで平均化するとオーバーフィットにつながります。並べ替えで指定された前にある、同じカテゴリ値を持つすべてのオブジェクトのデータ平均ラベルのランダム置換を使用してラベルの統計を計算すると、このオブジェクトのフィーチャ値になります。 他の可能性があるのは、カテゴリの機能をすぐに使用できるアルゴリズムを使用することです。 CatBoostを試すことができますhttps://catboost.yandex

関連する問題