ドロップアウトに起因する多くの間引きレイヤは平均化されていますか?テスト段階ではどのウェイトを使用するのですか?私は本当にこれについて混乱しています。なぜなら、間引かれた各レイヤーは、異なる重みのセットを学習するからです。ですから、逆伝播は、間引きされたネットワークごとに別々に行われますか?そして、これらの間引きされたネットワーク間でウェイトがどのくらい正確に共有されていますかテスト時には、1つのニューラルネットワークのみが使用され、1組の重みが使用されるからです。どのような重みのセットが使われますか?ドロップアウトを使用したトレーニング
トレーニングケースごとに異なる間引きネットワークが訓練されていると言われています。トレーニングケースの意味は?あなたは、それぞれのフォワードとバックプロパゲーションが異なる間引きネットワークを一度訓練することを意味しますか?次に、次のフォワードおよびバックプロパゲーションは別の間引きされたネットワークを訓練しますか?体重はどのように学習されますか?
私の答えはあなたを助けましたか? – hars