-1

私は、ロジスティック回帰のバイナリクラスの問題で、各サンプルに対して330サンプルと27のフィーチャを持つデータセットを持っています。多数の機能を使用してロジスティック回帰を実行していますか?

"10の場合のルール"によれば、各機能を含めるには少なくとも10のイベントが必要です。私は不均衡なデータセットを持っていますが、陽性クラスは20%、陰性クラスは80%です。

これは私にわずか70イベントを与え、約7/8フィーチャをLogisticモデルに含めることができます。

私はすべての機能をプレディクタとして評価したいと思いますが、私はどの機能も選択したくありません。

あなたは何をお勧めしますか? 7つの機能をすべて組み合わせて使用​​する必要がありますか?アソシエーションモデルで各フィーチャだけを評価し、最終的なモデルに最適なフィーチャだけを選択する必要がありますか?

カテゴリカルと連続的な機能の扱いについても興味がありますが、それらを混在させることはできますか?もし私がカテゴリー[0-1]と連続[0-100]を持っているなら、私は正規化すべきですか?

+4

あなたは実際にこの質問をhttps://datascience.stackexchange.com/ –

+0

に投稿することができます。私はこれが既にそこに頼まれているとは信じていますが、これはとにかくここにそれを複製するのに十分な理由ではありません。問題は、スタックオーバーフローのトピック外です。 –

答えて

0

L1正規化ロジスティック回帰(別名ラッソ回帰)を使用することをお勧めします。あなたがそれに慣れていない場合、アルゴリズムは自動的に精度を向上させるものではないものにペナルティを課すことで、機能のいくつかを自動的に選択します。

この正則化の強さは、テストセットまたは相互検証手順でモデルが最高の精度(または他のメトリック)を達成するまで増減できます(単なるパラメータです)。

+0

こんにちはStergios、この場合、私は研究目的のために標準ロジスティック回帰に固執したいと思いますが、私は将来の実験にLASSOを含める予定です。ご意見をいただきありがとうございます。 –

+1

何をしようとしていますか?最高の精度をもたらす7/8の機能を見つけますか?可能であれば、可能な限りすべての組み合わせを見ることができます(ただし、リソースと時間がかかりすぎる可能性があります)。または、LASSOを実行して最適な機能を選択させることもできます。その後、標準ログを実行します。 Reg。これらの機能のみを使用してただし、これは任意の機能選択方法のようなものです。 – Stergios

+0

すべての機能がどのように結果に関係しているかを知りたいのですが、ロジスティック回帰以外は使用したくありません。十分なイベントがあれば、モデルにすべての機能を追加するだけですが、残念ながら私は持っていません。ロジスティック回帰を使用したいのは、これが標準的なアプローチであり、これを比較手段として必要とするからです。 –

関連する問題