これはおそらく初心者の質問ですが、私は小規模なバッチでの訓練の仕組みについて頭を下ろそうとしています。各テンソルフローバッチには、すべての予想分類の入力の一様分布が含まれていなければなりませんか?
シナリオ - mnist分類問題については
、我々は0-9桁のトレーニングを可能にする適切なhyerparametersでモデルを持っているとしましょう。入力の均一な分布(各バッチ内のすべての数字の数が多かれ少なかれ)の小さなバッチでフィードすると、予想どおりに分類されることがわかります。
ここで、一様分布ではなく、1だけの画像でモデルを訓練し、重みが1に完全になるまで調整すると仮定します。そして、2秒しか含まれていない画像で訓練を開始します。入力だけが変更され、モデルと他のものは同じままであることに注意してください。モデルはすでに1秒で独占的に訓練を受けた後2Sだけにトレーニングを何
ん -
質問?それは忘れてしまった(つまりそう言っている)まで約1秒で体重を調整し続け、今は2秒に分類していますか?それとも、1と2の両方を覚えているような形でまだ重みを調整しますか?
つまり、各バッチには異なる分類の一様分布が含まれている必要がありますか? Tensorflowで訓練されたモデルを再学習すると、以前のトレーニングが上書きされますか?はいの場合、十分に均一な小さなバッチ(<256)を作成することができない場合、非常に大きな(> = 500-2000)バッチサイズで訓練するのは意味がありますか?