私はsklearnでstratifiedShuffleSplitを使用してトレーニングデータをバッチに分割しています。したがって、NNにフィードするすべてのバッチは、トレーニングセットと同じクラスの割合を持つようになります。言い換えれば、各バッチの各クラスの同じパーセンテージをトレーニングセットとして保存したいと思います。StratifiedShuffleSplit(sklearn)は毎回異なる割合を返します
私が混乱しているのは、各反復ごとに、各バッチに少しの違いがあるということです。それは同様の傾向があるが、トレーニングセットの正確なパーセンテージに従わない。なぜ正確な割合はstratifiedShuffleSplitでないのですか?
これで、まったく同じパーセンテージになるようにコードを自分で作成しました。
ありがとう、lanenok。データが多かれ少なかれ均衡していればOKです。データが非常に不均衡である場合、小さな外乱は少量のクラスから除去することができます。 –