2017-02-23 9 views
0

私はsklearnクラシファイアを使用していますが、主に決定木の周りに集中しています。私は偏見に問題があると思う。ここでは、私が働いているものだ25kのトレーニング記録のSklearn - データが偏りに偏って

セット(合計データを約500K利用可能である)クライアントは通常、偽

25Kのトレーニング記録、このデータにマークを付けるために提供される実際のデータの 95%は、偽であります95%の間違いと5%の真偽が含まれています

トレーニングとテストでは、使用する機能に応じて85%〜94%の精度が得られます。場合によっては、2つのフィーチャのうち90%の精度を提供するものもありますが、重要なのは20のフィーチャが94%に増加することがあります。私はこれが正しいとは思わないし、私が提供しているデータのために虚偽に向かうバイアスがあるという気持ちがある。実際のデータから「真の」値である5kの別のセットを追加して、おそらく30kレコードを使用して、「真」に向かってトレーニングセットにさらに多くのレコードを含める必要がありますか?

+0

のより良いミックスを得るために検証を横断するどのように多くの偽陽性および真陽性

  • チェックするのに役立ちます95%の精度を得ることができます。 –

  • 答えて

    1

    すべてのテストデータが偽である可能性があります。その場合、常にfalseを選択することで95%の有効性を得ることができます。

    あなたにはクラスの不均衡の問題があります。これは多くの現実世界のシナリオで典型的です。例えば、HIV陽性の症例は、HIV陰性、癌細胞、または不正行為の稀なケースです。あなたは、私がやるだろう物事のカップル

    など真の陽性対偽陰性のコストは効果の上に精度を勝つためにあなたのアルゴリズムを調整することができることですかを確認する必要があります。

    1. 混同行列を行います(http://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html)これはあなたにも使用これは、あなたが、誤ったとしても、推定ラベル場合は、すべてのデータを発生することができ、列車/テスト集団
    +0

    これは素晴らしいです、ありがとう! – HMan06

    +0

    もう一度おねがいしますが、これはかなり役に立ちました。今私はこれを見ている(私の脳は働いているようだ)精度は25%に近い。実際に私が期待していたものから遠く離れているわけではありません。私はこれに取り組んでいきます。 – HMan06