2017-05-18 10 views
2

私はsklearnでstratifiedShuffleSplitを使用してトレーニングデータをバッチに分割しています。したがって、NNにフィードするすべてのバッチは、トレーニングセットと同じクラスの割合を持つようになります。言い換えれば、各バッチの各クラスの同じパーセンテージをトレーニングセットとして保存したいと思います。StratifiedShuffleSplit(sklearn)は毎回異なる割合を返します

私が混乱しているのは、各反復ごとに、各バッチに少しの違いがあるということです。それは同様の傾向があるが、トレーニングセットの正確なパーセンテージに従わない。なぜ正確な割合はstratifiedShuffleSplitでないのですか?

これで、まったく同じパーセンテージになるようにコードを自分で作成しました。

答えて

1

あなたが11ポイントを持っていて、70%トレンチを設定したいとします。あなたは何ポイントを貰いますか?

7?それでは63.64%

8?それは72.73%です。

StratifiedShuffleSplitは時には7、時には8を要します。したがって、各バッチには小さな差があります。すべて順調。

+0

ありがとう、lanenok。データが多かれ少なかれ均衡していればOKです。データが非常に不均衡である場合、小さな外乱は少量のクラスから除去することができます。 –

関連する問題