答えて

2

文献では愉快に反対が観察された。ドロップアウトするオリジナルの用紙は、http://www.jmlr.org/papers/volume15/srivastava14a.old/source/srivastava14a.pdfです。付録A.2:学習率は10-100倍にする必要があるが、多くの勾配が互いに打ち消しあうため、勢いも増す必要があることを説明する。たぶん、バッチサイズが十分に高くないかもしれません。

上記の文献とは対照的に、以下の部分は私の説明ですが、なぜあなたの観察結果が起こったのかについてです。

0.5ドロップアウトを使用することにより、ニューロンの半分だけがアクティブになり、エラーに寄与します。それでもエラーのサイズは同じです。したがって、誤差はネットワークを介してニューロンの半分にまで伝播する。したがって、エラーの各ニューロン「部分」は倍になります。

同じ学習率を使用することで、勾配が2倍に更新されます。したがって、最初に大きな学習率を使用した場合と同じ問題が発生します。学習率を下げることによって、以前に使用した範囲内の更新が再度有効になります。

関連する問題