私は勾配降下法を使って学習しているパラメータ行列Wを持っているとします。勾配法の直交性ペナルティ?
私は、Wの列がおおよそ互いに直交していると信じる理由があれば、この行列に課すことができる特定の正則化があるのでしょうか?
それは私に何かを思わ:
W T W -diag(W T W)
ほぼ対応 T W Wの非対角要素を、罰するでしょう直交するWの列に変換する。
しかし、これは私の知る限りでは分かりません。私が知っておくべき他の方法は?
私は勾配降下法を使って学習しているパラメータ行列Wを持っているとします。勾配法の直交性ペナルティ?
私は、Wの列がおおよそ互いに直交していると信じる理由があれば、この行列に課すことができる特定の正則化があるのでしょうか?
それは私に何かを思わ:
W T W -diag(W T W)
ほぼ対応 T W Wの非対角要素を、罰するでしょう直交するWの列に変換する。
しかし、これは私の知る限りでは分かりません。私が知っておくべき他の方法は?
記号のすべての部分([W'W - diag(W'W)]^2)(記号を削除するには^ 2またはabsが必要です。そうでなければ[[1 -100] [100 1]]コストが0であっても直交性ではない)は微分可能ですが、どうしてそう思わないのですか?追加と乗算だけが含まれています。
与えられたWがd x nであるため、より大きな問題は計算上の複雑さです。前方パスと後方パスの両方がO(n^2d)の複雑さを持ちます。したがって、これがニューラルネット層で1000単位の場合、このようなペナルティは1,000,000,000回の計算を必要とします(通常のバックプロップでは1,000,000回ではありません)。一般的には、体重空間における対のペナルティを避けるべきである。あなたは確率的な方法でそのような並べ替えを正規化することでこれを減らすことができます(ドロップアウトと同様に、ランダムにK単位をサンプリングし、それらにのみペルティを適用します)。