私はcnnを使ってイメージを分類しています。私は私の旅を始めるために1000のイメージを持っています。だから、トレーニングデータセットとして900、テストデータセットとして100を使用します。私は〜70%の正確さのモデルを得ました。トレーニングデータとしてテストデータを再利用することはできますか?
今日は別の150枚の画像があります。
(1)以前の100個のテストデータと900個の列車データを組み合わせて「新しい」トレーニングセットとすることができます。これにより、おそらくより良いモデルを得るために1000個のトレーニングデータが得られますか?新しい150の画像を新しい「テスト」データとして使用できますか?
(2)新しい150個の画像と900個の列車のデータを組み合わせて新しいモデルをトレーニングし、以前の100個のテストデータセットを使用して新しいモデルをテストすることはできますか?
明らかに私は両方を試してみるつもりですが、理論的にはどちらが良いかわかりません...コメントはありますか?ありがとう。
同じテストデータセットを繰り返し使用できるかどうかはわかりませんでした。同じ100テストデータを使い続け、トレーニングセットに新しいデータを追加し続けても問題ありませんか?はい、彼らは同じ分布からです。 – user2210021
あなたのモデルがモデルパラメータを適合させるためのテストデータを見ていない限り、それは問題ありません。モデルを使用した予測はモデルの学習されたパラメータに影響しないため、同じテストデータを繰り返し使用することができます。 MLでは、適切な列車試験の分割は通常75-25または80-20です。分割するデータが少なすぎると思う場合は、k回のクロス検証を試してみてください。 – mujjiga