0
私は約189000行の大きなデータセットと、合計16個のカラムを持っています。私はそれを80%のトレーニングと20%のテストに分けたいと思っています。データセット自体の行は、最初の行の部分がニュースに関連し、2番目がスポーツに、3番目が宗教に、最後の行が一般的なグループに分かれています。私は80:20に直接分割することはできません。なぜなら、データセットの下部にあるクラスの大半がトレーニングでは見逃されるからです。また、そのようなデータセットから検証セットを選択するにはどうすればよいですか?特定のインデックスを使用してデータセットをテスト、検証、トレーニングに分類する方法は?
のベストプラクティスは、ランダムに分割し、オーバーフィッティング一切を保証するために、いくつかの異なる分割をしようとしないことです終わらせる。 Neural Network Toolboxを使用している場合は、['dividerand'](https://www.mathworks.com/help/nnet/ref/dividerand.html)を使用するか、[' randperm'](https:そうでなければ//www.mathworks.com/help/matlab/ref/randperm.html)。 – buzjwa
機械学習ツールボックスをお持ちの場合は、 'holdout'オプションを指定して 'cvpartition'をご覧ください:https://ch.mathworks.com/help/stats/cvpartition.html –