2016-10-27 11 views
-2

高度に不均衡なデータセットがあります。過半数から少数派への比率は99:1です。私は、少数派クラスを正確に予測するモデルを構築したいと考えています。簡単に言えば、私は、偽陰性のコストが偽陽性のコストよりも高くなければならないコストに敏感な学習を実行したいと考えています。 しかし、同じことをするロジスティック回帰のためのRのパッケージは見つかりませんでした。ロジスティック回帰のコストに敏感な学習を実装する方法R

同じことを行うには、Rコードの例を持つサイトのドキュメントを推薦できますか。前もって感謝します。

+0

偽陽性の増加を受け入れる場合(現れているように)、予測しきい値を変更するだけで済みます。余分なパッケージは必要ありません。 –

+1

それは問題ありません。現在私はあなたが言ったのと同じことをしています。しかし、私はモデルがコストに基づいて学びたいと思っています。少数派クラスの間違いを分類することに関連して、ある程度のペナルティがあるはずです。私はあなたが質問を得ることを願っています。ありがとう。 –

答えて

0

コストオプションを提供しないアルゴリズムであれば、少数派クラスをオーバーサンプリングすることができます。たとえば、5倍に重み付けしたい場合は、5倍にオーバーサンプリングします。

不均衡なデータを処理する方法については、多くの文献があります。一般的なアプローチには、少数派クラスのオーバーサンプリングまたは多数クラスのアンダーサンプリングが含まれます。さらに、SMOTEなどの高度な技術を使用することで、少数派クラスに基づく総合的な観察を作成することができます。

あなたのような不均衡が高いケースでは、大多数のオーバーサンプリングと少数のアンダーサンプリングを組み合わせて複数のモデルを平均化すると良い結果が得られることがわかりました。

+0

ありがとうございます。私も同じことをします。 –

+0

喜んで助けてください!これがあなたの質問に答えると感じたら、これを正しいものとしてマークしてください。 – Tchotchke

関連する問題