2016-10-15 13 views
0

ディープコンボルーションネット(たとえば、cnnを使用するMNISTディジット認識)では、訓練されたネットワークは、使用される数字の元のイメージを反転した入力トレーニング?その設計のおかげで、この操作では翻訳と同じように不変でなければならないようです。イメージ認識:イメージ反転の不変

答えて

1

簡潔に - いいえ。コンボリューション/プーリングを行うと、ネットワークは翻訳に対してわずかに不変になりますが、そのようなモデル(他の何も追加されていない)は、回転、反転、反射などに対して不変ではありません。

特に逆転の場合、その逆(new_color = 255 - previous)では、起動関数が異なる動作をすることを簡単に示すことができます。例えば、いくつかの畳み込み後に、数「4」の線形「処理」画像の後に信号「x」を得る再活性化を考える。あなたが完全に色を反転させると、この "x"は符号を変えるかもしれず、あなたのニューロンは非アクティブ(オリジナルx> 0なら)かアクティブ(そうでなければ)のどちらかです。良好ilustrateに

この、これは

1 1 1   1 1 1 
1 0 1 (x) 1 -99 1 = 1 + 1 + 1 + 1 + 0 + 1 + 1 + 1 + 1 = 8 
1 1 1   1 1 1 

relu(8) = max(0, 8) = 8 

0 0 0   1 1 1 
0 1 0 (x) 1 -99 1 = 0 + 0 + 0 + 0 -99 + 0 + 0 + 0 + 0 = -99 
0 0 0   1 1 1 

relu(8) = max(0, -99) = 0 

([0,1]を簡単にするために、私は正規化[0255])、3×3フィルタと3x3の入力と、畳み込みの最も簡単な例を見てみましょう非常に単純な例ですが、これはモデル内のすべてのニューロンにという大きな違いがあり、その結果として行動全体が変化します。

回転、対称も同様の方法で影響を受けます。 CNNはのみに不変小さい翻訳非常に小さいローテーションです。すべての "重要な"変化が行動を変えるでしょう。