私は肯定的なシナリオが800kのアイテムのわずか3%しか発生しない100の属性を持つデータに対してBinaryClassifierをトレーニングしています。トレーニング中に、ポジティブなインスタンスとネガティブなインスタンスを含める必要がありますか?私は、結果がバイナリである、つまりモデルがポジティブについて訓練されている場合、弱いマッチはそれが否定的であることを意味するので、私たちはshould notを推測している。Scikit BinaryClassificationトレーニングデータの選択
私は両方を含める必要がある場合は、パンダのDataFrameのサンプルメソッドは信頼性がありますか?
ありがとうございました!
"バイナリクラシファイアをトレーニングする場合、トレーニングデータセットに2つの出力が必要です。"本当に真実ではなく、その質問が何を指しているのではないと思います。正のクラスの確率を出力するのが一般的です。 – nnnmmm