より多くのSpatialDropoutsでより低いmseを得ることはもっともらしいですか？

私は他のすべて5つのConvolutional2D層のそれぞれの後により多くのSpatialDropoutsでより低いmseを得ることはもっともらしいですか？

SpatialDropout2D(0.2)

層で、トレーニングおよびバリデーションエラーが（これらのドロップアウト層なしで同じネットワークを持つよりも、最初の数エポックの間にはるかに低いことを観察してきました等しい）。これは、中間結果がランダムに削除された場合、最適化ルーチンが最小限の問題を発見することを期待しているので、直感的ではないようです。

私の見解は妥当ですか？もしそうなら、なぜですか？

出典

2017-01-30 user1934212