2017-12-29 20 views
-2

私は肯定的なシナリオが800kのアイテムのわずか3%しか発生しない100の属性を持つデータに対してBinaryClassifierをトレーニングしています。トレーニング中に、ポジティブなインスタンスとネガティブなインスタンスを含める必要がありますか?私は、結果がバイナリである、つまりモデルがポジティブについて訓練されている場合、弱いマッチはそれが否定的であることを意味するので、私たちはshould notを推測している。Scikit BinaryClassificationトレーニングデータの選択

私は両方を含める必要がある場合は、パンダのDataFrameのサンプルメソッドは信頼性がありますか?

ありがとうございました!

答えて

-1

バイナリクラシファイアをトレーニングする場合は、トレーニングデータセットに2つの出力が必要です。

少なくとも、分類器を機能させたい場合。

あなたが持っていることはここでは、アンバランスなデータセットですが、この問題に対処するためにいくつかの方法があります。

https://machinelearningmastery.com/tactics-to-combat-imbalanced-classes-in-your-machine-learning-dataset/

+0

"バイナリクラシファイアをトレーニングする場合、トレーニングデータセットに2つの出力が必要です。"本当に真実ではなく、その質問が何を指しているのではないと思います。正のクラスの確率を出力するのが一般的です。 – nnnmmm

0

あなたが不均衡なデータセットを処理する方法を求めている場合は、多くのブログ記事は、その上でオンラインにあります話題、例えばhere。パンダのサンプル方法を使用する1つの可能な方法は、weightsパラメータを他のクラスの周波数、すなわち、正のインスタンスについては0.97、負のサンプルについては0.03に設定することであり、それによってオーバーサンプリングによる不均衡を修正する。

しかし、正のインスタンスの分布に理論的にモデルを当てはめることができ、テスト中にすべての外れ値を負のインスタンスとしてラベル付けすることは可能ですが、これは可能ではありません。そのアプローチは両方のクラスから学ぶものよりも悪い結果をもたらすでしょう。さらに、scikit-learnのようなバイナリ分類アルゴリズムは、常に両方のクラスのインスタンスを仮定します。

関連する問題