私はtensorflowで小さなconvネットを構築しました。私が気づいたのは、完全に接続されたレイヤーにドロップアウト確率を追加すると、低い学習率を使用する必要があります。オーバーシュートなぜこのことが起こっているのか説明がありますか?畳み込みネットワーク:完全に接続されたレイヤーのドロップアウト
1
A
答えて
2
文献では愉快に反対が観察された。ドロップアウトするオリジナルの用紙は、http://www.jmlr.org/papers/volume15/srivastava14a.old/source/srivastava14a.pdfです。付録A.2:学習率は10-100倍にする必要があるが、多くの勾配が互いに打ち消しあうため、勢いも増す必要があることを説明する。たぶん、バッチサイズが十分に高くないかもしれません。
上記の文献とは対照的に、以下の部分は私の説明ですが、なぜあなたの観察結果が起こったのかについてです。
0.5ドロップアウトを使用することにより、ニューロンの半分だけがアクティブになり、エラーに寄与します。それでもエラーのサイズは同じです。したがって、誤差はネットワークを介してニューロンの半分にまで伝播する。したがって、エラーの各ニューロン「部分」は倍になります。
同じ学習率を使用することで、勾配が2倍に更新されます。したがって、最初に大きな学習率を使用した場合と同じ問題が発生します。学習率を下げることによって、以前に使用した範囲内の更新が再度有効になります。
関連する問題
- 1. CNNの畳み込みレイヤーから完全に接続されたレイヤーへの入力の寸法
- 2. ドロップアウトを挿入する必要があります。完全に接続されたレイヤー。畳み込みレイヤ。または両方。?
- 3. 完全畳み込みネットワークのピクセルあたりのsoftmax
- 4. 事前トレーニングされたmxnetネットワークを完全に畳み込みにする
- 5. TensorFlowサポートの畳み込みレイヤーがドロップアウトしますか?
- 6. 完全畳み込みネットワークのデータセットをフォーマットする方法は?
- 7. Tensorflowを使用して畳み込みネットワークで完全に接続されたレイヤーの後に回帰ヘッドを追加する方法は?
- 8. さまざまな入力を使用した完全畳み込みネットワーク
- 9. Caffeの完全な畳み込みネット
- 10. Keras - CNNの畳み込み部分を2つの別々の完全接続レイヤーと共有する方法
- 11. Caffe完全畳み込みCNN
- 12. 完全畳み込みネットワークトレーニング画像サイズ
- 13. TensorFlowの完全畳み込みネットワークで損失を実装する方法は?
- 14. 畳み込みニューラルネットワークの隠れ層のドロップアウト率ガイダンス
- 15. 畳み込みネットワークの重み?
- 16. Kerasの畳み込みレイヤーのウェイト
- 17. 畳み込みニューラルネットワークで完全に接続されたレイヤーのデフォルトの出力形状を変更する方法はありますか?
- 18. 畳み込みニューラルネットワークのレイヤーを特定
- 19. 完全に接続されたレイヤーが正しくないフィード
- 20. Javaで完全に接続されたレイヤー、Tensorflow
- 21. ケラスの可変サイズ画像用の完全畳み込みオートエンコーダー
- 22. パッチワイズトレーニングとFCNの完全畳み込みトレーニング
- 23. Caffe畳み込みネットワークのトレーニングのためのLMDBデータベース
- 24. 可変長シーケンスと畳み込みレイヤーとLSTMレイヤーの組み合わせ
- 25. Keras畳み込みネットワークを使用したメモリの問題
- 26. 完全畳み込みニューラルネットワークを訓練するためのサブパネル生成機構
- 27. 畳み込みレイヤーと密なレイヤーの間に新しい情報を追加
- 28. AlphaGoで畳み込みネットワークはどのように使用されますか?
- 29. Caffeで完全に接続されたレイヤーをトレーニングするときに学習していないネットワーク
- 30. 3チャンネル画像の畳み込みレイヤーの逆方向パス