2017-03-14 6 views
0

これはおそらく初心者の質問ですが、私は小規模なバッチでの訓練の仕組みについて頭を下ろそうとしています。各テンソルフローバッチには、すべての予想分類の入力の一様分布が含まれていなければなりませんか?

シナリオ - mnist分類問題については

、我々は0-9桁のトレーニングを可能にする適切なhyerparametersでモデルを持っているとしましょう。入力の均一な分布(各バッチ内のすべての数字の数が多かれ少なかれ)の小さなバッチでフィードすると、予想どおりに分類されることがわかります。

ここで、一様分布ではなく、1だけの画像でモデルを訓練し、重みが1に完全になるまで調整すると仮定します。そして、2秒しか含まれていない画像で訓練を開始します。入力だけが変更され、モデルと他のものは同じままであることに注意してください。モデルはすでに1秒で独占的に訓練を受けた後2Sだけにトレーニングを何

ん -

質問?それは忘れてしまった(つまりそう言っている)まで約1秒で体重を調整し続け、今は2秒に分類していますか?それとも、1と2の両方を覚えているような形でまだ重みを調整しますか?

つまり、各バッチには異なる分類の一様分布が含まれている必要がありますか? Tensorflowで訓練されたモデルを再学習すると、以前のトレーニングが上書きされますか?はいの場合、十分に均一な小さなバッチ(<256)を作成することができない場合、非常に大きな(> = 500-2000)バッチサイズで訓練するのは意味がありますか?

答えて

1

これは明確な答えがなくても良い質問です。一般に、訓練サンプルの順序および選択は、訓練されたネットの性能、特にそれが示す一般化特性に関して大きな影響を与える。

実際のところ、特定の例を選択し、ネットのパフォーマンスを最大限に引き出すためにそれらを特定することは、「カリキュラム学習」と呼ばれる本物の研究領域でもあります。研究論文thisを参照してください。

あなたの特定の質問に戻ります:あなたはそれぞれの可能性を試し、それぞれを評価するべきです(とにかく面白い学習練習になるかもしれません)。私は、一様に分布したサンプルが異なるカテゴリーにわたって一般化することが期待される。 1つのカテゴリAから90%のサンプルを取得した場合、すべてのカテゴリで70%を取得すると、カテゴリAから99%、それ以外の場所では0%と比較して悪化します全体の精度の)。他のサンプル選択メカニズムは異なる挙動を示す。このような質問について

1

興味深い読書は、トレーニングデータの分布は不明であるオンライン学習に関するセクションがありBengioの2012年論文Practical Recommendations for Gradient-Based Training of Deep Architectures

です。私はそれが が一次勾配を使用して、最適な方法でそのオンライン学習者、 非反復トレーニングデータのストリームを与えられたとき、本当に最適化(多分 ない、すなわちを意味し、元の紙から

を引用します 技術)私たちが本当に気にするもの:一般化 エラー。

のベストプラクティスあなたのデータセットが異なるテストシナリオの下でどのように動作するかを把握するのにと、それらの両方を試してみて、トレーニングデータの分布は、あなたの汎化誤差をどのように影響するかの実験結果を得ることであろう。

関連する問題