私は正則化from this linkについて読んでいます。この特定の概念をどのようにペナルティに関連付けるべきか理解できません。簡略化/代替的な理解のために正規化
上記の損失関数には1つのバグがあります。すべての例を正しく分類する(つまり、すべてのマージンが満たされるように、すべてのiについてLi = 0Li = 0)データ・セットとパラメータ・セットWがあるとします。問題は、このWのセットが必ずしも一意であるとは限らないことです。例を正しく分類する類似のWが多数存在する可能性があります。これを見る簡単な方法の1つは、いくつかのパラメータWがすべての例を正しく分類する場合(各例について損失がゼロ)、λ> 1であるこれらのパラメータλWの任意の倍数も、この変換がすべてのスコアの大きさしたがってそれらの絶対的な差異もまた同様である。
私はこれを、2Dの直線方程式の係数に乗算し、乗算された係数にもかかわらず式を満たしていると考えることができます。それとももっと良い考え方がありますか?例えば
、正しいクラス間のスコアの差と最も近い誤ったクラスが15だった場合、換言すれば、その後、2 Wのすべての要素を乗算する新たな違いになるだろう30
、我々はこのあいまい性を除去するために、他のものより重みWの特定の集合に対するいくつかの嗜好を符号化したい。 >
私はこの声明を理解していません。固有の重み付け/パラメータのセットが望ましいと理解していますが(なぜですか?)
損失関数を正規化ペナルティR(W)で拡張することで、そうすることができます。最も一般的な正則化ペナルティは、すべてのパラメータに対する要素単位二次ペナルティを介して大きな重みを阻止L2ノルムである:
$ R(W)$ = $ \ sum_k \ sum_l W_ {K、L}^2 $
なぜ大きな重量が落ちるのですか?