との関係は、私は一度文を聞いたこと:トランスレーショナequivarianceとconvolutonal層と畳み込みニューラルネットワークモデルの文脈では、空間プーリング層
畳み込みの1つの望ましい特性は、彼らがしていることである 翻訳equivariant。空間プールの導入により、翻訳上同等の特性が損なわれる可能性があります。
この声明は何を意味し、なぜですか?
との関係は、私は一度文を聞いたこと:トランスレーショナequivarianceとconvolutonal層と畳み込みニューラルネットワークモデルの文脈では、空間プーリング層
畳み込みの1つの望ましい特性は、彼らがしていることである 翻訳equivariant。空間プールの導入により、翻訳上同等の特性が損なわれる可能性があります。
この声明は何を意味し、なぜですか?
おそらく、あなたはBengio's bookからそれを聞いたでしょう。私はあなたに私の説明をしようとします。
粗い意味では、f(g(x)) = g(f(x))
の場合、2つの変換が等価です。畳み込みと翻訳の場合は、convolve(translate(x))
の場合は、translate(convolve(x))
と同じになります。これは、あなたの畳み込みが画像中の猫の目を見つけるなら、あなたが画像をシフトするならば、その目を見つけることが望ましいからです。
あなたはこれを自分で見ることができます(私は1d convを使うのは、簡単に計算できるからです)。 v = [4, 1, 3, 2, 3, 2, 9, 1]
とk = [5, 1, 2]
を畳み込みます。結果は[27, 12, 23, 17, 35, 21]
v' = [8] + v
と付け加えてvをシフトしましょう。 k
と畳むと[46, 27, 12, 23, 17, 35, 21]
になります。あなたが結果として、以前の結果にはいくつかの新しいものが追加されています。
ここでは、空間プーリングに関する部分です。最初の結果と2番目のサイズで最大サイズ3のプールを作ってみましょう。最初のケースでは[27, 35]
となり、2番目の数字は[46, 35, 21]
となります。あなたが見たように27
は何とか消えました(結果は壊れていました)。あなたが平均的なプールを取るならば、それはもっと壊れてしまいます。
P.S.最大/最小のプールは、すべてのプールの中で最も翻訳上不変です(もしあなたがそうであれば、破損していない要素の数を比較するとそうかもしれません)。