StratifiedShuffleSplit（sklearn）は毎回異なる割合を返します

私はsklearnでstratifiedShuffleSplitを使用してトレーニングデータをバッチに分割しています。したがって、NNにフィードするすべてのバッチは、トレーニングセットと同じクラスの割合を持つようになります。言い換えれば、各バッチの各クラスの同じパーセンテージをトレーニングセットとして保存したいと思います。StratifiedShuffleSplit（sklearn）は毎回異なる割合を返します

私が混乱しているのは、各反復ごとに、各バッチに少しの違いがあるということです。それは同様の傾向があるが、トレーニングセットの正確なパーセンテージに従わない。なぜ正確な割合はstratifiedShuffleSplitでないのですか？

これで、まったく同じパーセンテージになるようにコードを自分で作成しました。

出典

2017-05-18 Luwei Yang

あなたが11ポイントを持っていて、70％トレンチを設定したいとします。あなたは何ポイントを貰いますか？

7？それでは63.64％

8？それは72.73％です。

StratifiedShuffleSplitは時には7、時には8を要します。したがって、各バッチには小さな差があります。すべて順調。

出典

2017-05-18 06:13:39 lanenok

ありがとう、lanenok。データが多かれ少なかれ均衡していればOKです。データが非常に不均衡である場合、小さな外乱は少量のクラスから除去することができます。 –

StratifiedShuffleSplit（sklearn）は毎回異なる割合を返します

答えて

関連する問題