ドロップアウトを使用したトレーニング

ドロップアウトに起因する多くの間引きレイヤは平均化されていますか？テスト段階ではどのウェイトを使用するのですか？私は本当にこれについて混乱しています。なぜなら、間引かれた各レイヤーは、異なる重みのセットを学習するからです。ですから、逆伝播は、間引きされたネットワークごとに別々に行われますか？そして、これらの間引きされたネットワーク間でウェイトがどのくらい正確に共有されていますかテスト時には、1つのニューラルネットワークのみが使用され、1組の重みが使用されるからです。どのような重みのセットが使われますか？ドロップアウトを使用したトレーニング

トレーニングケースごとに異なる間引きネットワークが訓練されていると言われています。トレーニングケースの意味は？あなたは、それぞれのフォワードとバックプロパゲーションが異なる間引きネットワークを一度訓練することを意味しますか？次に、次のフォワードおよびバックプロパゲーションは別の間引きされたネットワークを訓練しますか？体重はどのように学習されますか？

出典

2017-05-17 Chaine

私の答えはあなたを助けましたか？ – hars

トレーニング中：ドロップアウトで

は、あなただけゼロであることをその層のアクティベーション/出力のいくつかの数（ドロップアウト確率）を強制。通常、これらのアクティベーションを削除するブールマスクが作成されます。これらのマスクは、バックプロパゲーションを行う際に使用されます。したがって、勾配は、前方の小道具でのみ使用される重みに適用されます。

試験中：

すべての重みが使用されます。すべてのニューロンは保持されます（ドロップアウトなし）が、レイヤーの活性化/出力は、そのレイヤーからの出力全体を正規化するためのp（ドロップアウト確率）によってスケーリングされます。

その上の図に示すように、ただ一つのネットワーク（ここから使用：https://www.cs.toronto.edu/~hinton/absps/JMLRdropout.pdf）

問題：私はあなたが薄くなったネットワークで何を意味理解していません。

こちらがお役に立てば幸いです。

出典

2017-05-18 00:09:22 hars

ドロップアウトを使用したトレーニング

答えて

関連する問題