私はsklearnクラシファイアを使用していますが、主に決定木の周りに集中しています。私は偏見に問題があると思う。ここでは、私が働いているものだ25kのトレーニング記録のSklearn - データが偏りに偏って
セット(合計データを約500K利用可能である)クライアントは通常、偽
25Kのトレーニング記録、このデータにマークを付けるために提供される実際のデータの 95%は、偽であります95%の間違いと5%の真偽が含まれています
トレーニングとテストでは、使用する機能に応じて85%〜94%の精度が得られます。場合によっては、2つのフィーチャのうち90%の精度を提供するものもありますが、重要なのは20のフィーチャが94%に増加することがあります。私はこれが正しいとは思わないし、私が提供しているデータのために虚偽に向かうバイアスがあるという気持ちがある。実際のデータから「真の」値である5kの別のセットを追加して、おそらく30kレコードを使用して、「真」に向かってトレーニングセットにさらに多くのレコードを含める必要がありますか?
のより良いミックスを得るために検証を横断するどのように多くの偽陽性および真陽性