私は、ロジスティック回帰のバイナリクラスの問題で、各サンプルに対して330サンプルと27のフィーチャを持つデータセットを持っています。多数の機能を使用してロジスティック回帰を実行していますか?
"10の場合のルール"によれば、各機能を含めるには少なくとも10のイベントが必要です。私は不均衡なデータセットを持っていますが、陽性クラスは20%、陰性クラスは80%です。
これは私にわずか70イベントを与え、約7/8フィーチャをLogisticモデルに含めることができます。
私はすべての機能をプレディクタとして評価したいと思いますが、私はどの機能も選択したくありません。
あなたは何をお勧めしますか? 7つの機能をすべて組み合わせて使用する必要がありますか?アソシエーションモデルで各フィーチャだけを評価し、最終的なモデルに最適なフィーチャだけを選択する必要がありますか?
カテゴリカルと連続的な機能の扱いについても興味がありますが、それらを混在させることはできますか?もし私がカテゴリー[0-1]と連続[0-100]を持っているなら、私は正規化すべきですか?
あなたは実際にこの質問をhttps://datascience.stackexchange.com/ –
に投稿することができます。私はこれが既にそこに頼まれているとは信じていますが、これはとにかくここにそれを複製するのに十分な理由ではありません。問題は、スタックオーバーフローのトピック外です。 –