特定のインデックスを使用してデータセットをテスト、検証、トレーニングに分類する方法は？

私は約189000行の大きなデータセットと、合計16個のカラムを持っています。私はそれを80％のトレーニングと20％のテストに分けたいと思っています。データセット自体の行は、最初の行の部分がニュースに関連し、2番目がスポーツに、3番目が宗教に、最後の行が一般的なグループに分かれています。私は80:20に直接分割することはできません。なぜなら、データセットの下部にあるクラスの大半がトレーニングでは見逃されるからです。また、そのようなデータセットから検証セットを選択するにはどうすればよいですか？特定のインデックスを使用してデータセットをテスト、検証、トレーニングに分類する方法は？

出典

2017-11-01 Abigail

のベストプラクティスは、ランダムに分割し、オーバーフィッティング一切を保証するために、いくつかの異なる分割をしようとしないことです終わらせる。 Neural Network Toolboxを使用している場合は、['dividerand']（https://www.mathworks.com/help/nnet/ref/dividerand.html）を使用するか、[' randperm']（https：そうでなければ//www.mathworks.com/help/matlab/ref/randperm.html）。 – buzjwa

機械学習ツールボックスをお持ちの場合は、 'holdout'オプションを指定して 'cvpartition'をご覧ください：https://ch.mathworks.com/help/stats/cvpartition.html –

あなたの質問をよく理解していれば、トレーニングデータセットを選択している間に、さまざまな行タイプの割合を維持したいと考えています。私はあなたが行の種類ごとに行の80％を選択することをお勧めします。

% rowType: 1: news, 2: sport, 3: religion, 4: general 
% dataset: original dataset variable 
trainingSelected = false(size(dataset,1),1); 
p = 0.8; 
for i=1:4 
    rTypeIdx = find(rowType==i); 
    n = numel(rTypeIdx) 

    sel = randperm(n, round(n*p)); 
    trainingSelected(rTypeIdx(sel)) = true; 
end

あなたは、厳密な比率を維持したくない場合は、あなただけの直接randpermを使用することができます。

p = 0.8 
trainingSelected = randperm(size(dataset,1), round(size(dataset,1)*p));

出典

2017-11-01 14:25:32 beesleep

特定のインデックスを使用してデータセットをテスト、検証、トレーニングに分類する方法は？

答えて

関連する問題