トレーニングデータとしてテストデータを再利用することはできますか？

私はcnnを使ってイメージを分類しています。私は私の旅を始めるために1000のイメージを持っています。だから、トレーニングデータセットとして900、テストデータセットとして100を使用します。私は〜70％の正確さのモデルを得ました。トレーニングデータとしてテストデータを再利用することはできますか？

今日は別の150枚の画像があります。

（1）以前の100個のテストデータと900個の列車データを組み合わせて「新しい」トレーニングセットとすることができます。これにより、おそらくより良いモデルを得るために1000個のトレーニングデータが得られますか？新しい150の画像を新しい「テスト」データとして使用できますか？

（2）新しい150個の画像と900個の列車のデータを組み合わせて新しいモデルをトレーニングし、以前の100個のテストデータセットを使用して新しいモデルをテストすることはできますか？

明らかに私は両方を試してみるつもりですが、理論的にはどちらが良いかわかりません...コメントはありますか？ありがとう。

出典

2017-06-19 user2210021

最高のCNNを可能にするには、できるだけ多くのデータを訓練する必要があります。理論は、あなたが持っているトレーニングデータが多いほど、テストエラーがあなたのトレーニングエラーに近づくことを示しています。つまり、あなたのCNNは、訓練されていない例を分類するのがより良いでしょう。一方、精度測定に自信を持たせる必要があるため、テストデータをあまりにも少なくしたくありません。だから、理想的にはより多くのトレーニングとより多くのデータをテストする必要があります。

データがIIDの場合、モデルをトレーニングするために使用される1150個の画像はどれも心配する必要はありません。

同じテストデータを再利用する唯一の危険性は、テストデータでより良い結果を得ることができるため、モデルを変更することができます（たとえば、別のレイヤーを追加したり、既存のレイヤーにユニットを追加するなど）。テストエラーの観測に応じてモデルを変更すると、データに過大な影響を及ぼす危険性があります。モデルを微調整するために、検証セットと呼ばれる第3のデータセットを使用することで、この問題を緩和することができます。

IID：合計1150個のイメージは、同一の分布から独立して描画されます。言い換えれば、大まかに言えば、あなたが新しいものであるという事実を除いて、150と1000を区別することは何もなく、各画像の選択は他の画像の選択に影響されません。

出典

2017-06-19 16:48:44

新しい150個の画像が前の1000個のサンプルと同じ分布のものであれば問題ありません。

出典

2017-06-19 15:25:19 mujjiga

同じテストデータセットを繰り返し使用できるかどうかはわかりませんでした。同じ100テストデータを使い続け、トレーニングセットに新しいデータを追加し続けても問題ありませんか？はい、彼らは同じ分布からです。 – user2210021

あなたのモデルがモデルパラメータを適合させるためのテストデータを見ていない限り、それは問題ありません。モデルを使用した予測はモデルの学習されたパラメータに影響しないため、同じテストデータを繰り返し使用することができます。 MLでは、適切な列車試験の分割は通常75-25または80-20です。分割するデータが少なすぎると思う場合は、k回のクロス検証を試してみてください。 – mujjiga

トレーニングデータとしてテストデータを再利用することはできますか？

答えて

関連する問題