2017-11-28 6 views
0

多くのクラスを含むデータセットに数値以外の変数がありますが、ターゲットクラスの不均衡の場合と同じ問題が発生しますか?機械学習、不均衡な数値以外の変数クラスの問題があります

たとえば、自分の変数の1つがtitleで、目的が肥満であるかどうかを特定することでした。データの肥満クラスは50:50に分割されていますが、タイトルに「Duke」という行が1つしかなく、この行は肥満クラスにあります。これは、ロジスティック回帰(数値エンコーディング後)のようなアルゴリズムは、すべての公爵が肥満である(または '公爵'というタイトルのために不均衡な重み付けをしている)と予測することを意味するのでしょうか?もしそうなら、いくつかのアルゴリズムがこのケースを扱う上でより良い/悪いのでしょうか?この問題を防ぐ方法はありますか?

答えて

1

はい、バニラマシン学習アルゴリズムは、特定の機能からの情報エントロピーの点で数値データと同じ方法でカテゴリデータを処理します。

機械学習アルゴリズムを適用する前に、入力フィーチャを分析し、ターゲット上の各原因を説明する必要があります。あなたのケースでは、ラベルDukeが常に肥満であると特定された場合、その特定のデータセットが非常に高い情報機能であり、そのように重み付けされるべきです。

私はこの機能に重みを付け加えることでこの問題を緩和し、ターゲットに与える影響を最小限に抑えています。しかし、これが他のインスタンスにとって非常に有益な機能であれば、これは残念です。

この問題を簡単に回避できるアルゴリズムは、ランダムフォレスト(決定木)です。 Dukeであるこの機能に基づくルールをすべて削除することができます。

この機能を数字にマッピングする際には、ほとんどのアルゴリズムでこの機能に起因する重要性に影響を与えますので、十分注意してください。

関連する問題