私は約3000のオブジェクトを持っています。私は70%の トレーニングと30%のテスト分割でトレーニングとテストのデータをランダムに分割したいと思います。しかし、私はオブジェクトの数に基づいてではなく、各オブジェクトに関連付けられたカウントに基づいてそれらを分割したいと思います。トレーニングとテストのデータを無作為に分割する
例として、私のデータセットに5つのオブジェクトが含まれていると仮定します。
Obj 1 => 200
Obj 2 => 30
Obj 3 => 40
Obj 4 => 20
Obj 5 => 110
私は約70%-30%の割合でそれらを分割する場合は、私のトレーニングセットが
Obj 2 => 30
Obj 3 => 40
Obj 4 => 20
Obj 5 => 110
であるべきで、私のテストセットが
Obj 1 => 200
だろうもし私がそれらを再び分割すると、私は70-30分割比に近い別のトレーニングとテストセットを取得する必要があります。私は上記の分割は私に純粋な70-30分割を与えていないことを理解しますが、それが近づく限り、それは受け入れられます。
Pythonでこれを行うための定義済みのメソッド/パッケージはありますか?私が正しくあなたの質問を理解すると仮定すると、
[Numpy:データセット(配列)をトレーニングとテストのデータセットに分割/分割する方法(クロスバリデーションなど)?](http://stackoverflow.com/questions/3674409/numpy-how-to -split-partition-a-dataset-array-to-training-and-test-datasets) – Zafi
これはおそらく記録のために、おそらく本当に悪い考えです。一般的に、訓練を同じにして、テストデータに訓練しないようにしたいとします。 –