2016-10-28 6 views
2

いくつかの古いディスカッション(link1link2)から、weight_decayパラメータはウェイトに対するL2損失の正則化パラメータであるという考えがありました。たとえば、cifar10 solverでは、weight_decayの値は0.004です。最小限に抑えるべき損失が「クロスエントロピー+ 0.004 * sum_of_L2_Norm_of_all_weights」であることを意味しますか?万一、「クロスエントロピー+ 0.004/2 * sum_of_L2_Norm_of_all_weights」ですか?カフェの重量減少。どのくらい正確に使用されていますか?

答えて

0

損失は、クロスエントロピー+ 0.004/2 * sum_of_L2_Norm_of_all_weightsのようです。 AlexNet、ソルバーファイル(https://github.com/BVLC/caffe/blob/master/models/bvlc_alexnet/solver.prototxt)の公式カフェの実装を見てみる

はweight_decay = 0.0005を設定し、元のAlexNet紙(http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf、6ページ)の勾配更新用語

-0.0005を含むがE * * w_i

勾配*損失の偏微分であり、損失の正則化成分は、通常、ラムダとして表されるので||^2 || wが、それは*

weight_decay = 2かのように思えますラムダ

関連する問題