1
decay_rate = 0.99 # decay factor for RMSProp leaky sum of grad^2 

RMSPropオプティマイザの "漏れやすい"合計について説明しています。これまで私はこの特定の行がAndrej KarpathyのDeep Reinforcement Learning: Pong from Pixelsのcopy-pasta'dであり、RMSPropがunpublished optimizer proposed by Hinton in one of his Coursera Classesであることを明らかにすることができました。 link 2からRMSPropの数学を見てみると、これがどのように "漏れている"かを理解するのは難しいです。RMSPropが「漏れ」と考えられるのはなぜですか?

RMSPropがこのように記述されている理由は誰にも分かりますか?

答えて

4

RMspropは、二乗勾配の指数関数的減衰平均を維持します。 「漏れ」とは、前回の推定値のうちどれが現在の値に「漏れているか」ということです。

E[g^2]_t := 0.99 E[g^2]_{t-1} + 0.01 g^2_t 
      \_______________/ \________/ 
       "leaking"   new data 
関連する問題