多くのクラスを含むデータセットに数値以外の変数がありますが、ターゲットクラスの不均衡の場合と同じ問題が発生しますか?機械学習、不均衡な数値以外の変数クラスの問題があります
たとえば、自分の変数の1つがtitleで、目的が肥満であるかどうかを特定することでした。データの肥満クラスは50:50に分割されていますが、タイトルに「Duke」という行が1つしかなく、この行は肥満クラスにあります。これは、ロジスティック回帰(数値エンコーディング後)のようなアルゴリズムは、すべての公爵が肥満である(または '公爵'というタイトルのために不均衡な重み付けをしている)と予測することを意味するのでしょうか?もしそうなら、いくつかのアルゴリズムがこのケースを扱う上でより良い/悪いのでしょうか?この問題を防ぐ方法はありますか?