機械学習、不均衡な数値以外の変数クラスの問題があります

多くのクラスを含むデータセットに数値以外の変数がありますが、ターゲットクラスの不均衡の場合と同じ問題が発生しますか？機械学習、不均衡な数値以外の変数クラスの問題があります

たとえば、自分の変数の1つがtitleで、目的が肥満であるかどうかを特定することでした。データの肥満クラスは50:50に分割されていますが、タイトルに「Duke」という行が1つしかなく、この行は肥満クラスにあります。これは、ロジスティック回帰（数値エンコーディング後）のようなアルゴリズムは、すべての公爵が肥満である（または '公爵'というタイトルのために不均衡な重み付けをしている）と予測することを意味するのでしょうか？もしそうなら、いくつかのアルゴリズムがこのケースを扱う上でより良い/悪いのでしょうか？この問題を防ぐ方法はありますか？

出典

2017-11-28 Samuel Jones