0

との関係は、私は一度文を聞いたこと:トランスレーショナequivarianceとconvolutonal層と畳み込みニューラルネットワークモデルの文脈では、空間プーリング層

畳み込みの1つの望ましい特性は、彼らがしていることである 翻訳equivariant。空間プールの導入により、翻訳上同等の特性が損なわれる可能性があります。

この声明は何を意味し、なぜですか?

答えて

2

おそらく、あなたはBengio's bookからそれを聞いたでしょう。私はあなたに私の説明をしようとします。


粗い意味では、f(g(x)) = g(f(x))の場合、2つの変換が等価です。畳み込みと翻訳の場合は、convolve(translate(x))の場合は、translate(convolve(x))と同じになります。これは、あなたの畳み込みが画像中の猫の目を見つけるなら、あなたが画像をシフトするならば、その目を見つけることが望ましいからです。

あなたはこれを自分で見ることができます(私は1d convを使うのは、簡単に計算できるからです)。 v = [4, 1, 3, 2, 3, 2, 9, 1]k = [5, 1, 2]を畳み込みます。結果は[27, 12, 23, 17, 35, 21]

v' = [8] + vと付け加えてvをシフトしましょう。 kと畳むと[46, 27, 12, 23, 17, 35, 21]になります。あなたが結果として、以前の結果にはいくつかの新しいものが追加されています。


ここでは、空間プーリングに関する部分です。最初の結果と2番目のサイズで最大サイズ3のプールを作ってみましょう。最初のケースでは[27, 35]となり、2番目の数字は[46, 35, 21]となります。あなたが見たように27は何とか消えました(結果は壊れていました)。あなたが平均的なプールを取るならば、それはもっと壊れてしまいます。

P.S.最大/最小のプールは、すべてのプールの中で最も翻訳上不変です(もしあなたがそうであれば、破損していない要素の数を比較するとそうかもしれません)。

関連する問題