2017-03-17 6 views
-1

私は正則化from this linkについて読んでいます。この特定の概念をどのようにペナルティに関連付けるべきか理解できません。簡略化/代替的な理解のために正規化

上記の損失関数には1つのバグがあります。すべての例を正しく分類する(つまり、すべてのマージンが満たされるように、すべてのiについてLi = 0Li = 0)データ・セットとパラメータ・セットWがあるとします。問題は、このWのセットが必ずしも一意であるとは限らないことです。例を正しく分類する類似のWが多数存在する可能性があります。これを見る簡単な方法の1つは、いくつかのパラメータWがすべての例を正しく分類する場合(各例について損失がゼロ)、λ> 1であるこれらのパラメータλWの任意の倍数も、この変換がすべてのスコアの大きさしたがってそれらの絶対的な差異もまた同様である。

私はこれを、2Dの直線方程式の係数に乗算し、乗算された係数にもかかわらず式を満たしていると考えることができます。それとももっと良い考え方がありますか?例えば

、正しいクラス間のスコアの差と最も近い誤ったクラスが15だった場合、換言すれば、その後、2 Wのすべての要素を乗算する新たな違いになるだろう30

、我々はこのあいまい性を除去するために、他のものより重みWの特定の集合に対するいくつかの嗜好を符号化したい。 >

私はこの声明を理解していません。固有の重み付け/パラメータのセットが望ましいと理解していますが(なぜですか?)

損失関数を正規化ペナルティR(W)で拡張することで、そうすることができます。最も一般的な正則化ペナルティは、すべてのパラメータに対する要素単位二次ペナルティを介して大きな重みを阻止L2ノルムである:

$ R(W)$ = $ \ sum_k \ sum_l W_ {K、L}^2 $

なぜ大きな重量が落ちるのですか?

答えて

1

あなたの考えは正確です:問題を解決する等式がある場合は、係数が最小のものが一般的です。ソフトマックスや他の自然のスケーリングが簡単に違いを扱う場合でも

y = x1 + 3 * x2 - 2 * x3 

y = 10 * x1 + 30 * x2 - 20 * x3 

に好ましいです。

これには、実際にさまざまな利点があります。数値が小さいほどオーバーフローの可能性が低くなります。ソリューションの検索は、非常に大きな値または小さな値にはなりません。非線形の関係は合理的な範囲内にとどまり、計算の正確さが維持されます。これは、トレーニングで収束領域を最初に検索する場合に特に重要です。

これは役に立ちますか?

0

正規化のもう1つの重要な利点は、プルーンの説明に加えて、モデル/仮説の過適合を減らすことです。正規化されたコスト関数を使用して訓練されたモデルは、訓練セットの性能が悪くなるが、訓練セットの外の値でより一般化される。

関連する問題