2016-06-16 8 views
1

私は初心者です。私はmnistチュートリアルを理解しました。今私はSVHNデータセットに何かをつけたいと思っています。 mnistとは対照的に、3つのカラーチャンネルが付属しています。私は畳み込みとプールが色チャンネルの追加の次元でどのように機能するかを視覚化するのに苦労しています。3つのカラーチャネルを使用した画像の畳み込み/プールを想像するには

誰かが私のためにそれについての良い考え方やリンクを考えていますか?

私はすべての入力に感謝:)

答えて

2

これは非常に単純ですが、違いは唯一最初の畳み込みにある:グレー画像で

  • 、入力形状は、([batch_size, W, H, 1]ので、あなたの最初の畳み込みでありますたとえば、3次元3次元)の場合、32次元の寸法を持つ場合は、形状が[3, 3, 1, 32]のフィルタがあります。
  • RGB画像では、入力形状は[batch_size, W, H, 3]です。したがって、最初のコンボリューション(まだ3x3)には、形状が[3, 3, 3, 32]のフィルタがあります。どちらの場合も

、(ストライド1)出力形状が[batch_size, W, H, 32]

+0

ありがとうございました!それはまた、私は3色のチャネルを持っているとき、私はmonocrome画像(3色で考えられているアイデア、より多くのカーネルを選択する必要がありますパターンの可能性がありますフィルタが検出できる)? – hmmmbob

+0

私はあなたのモデルを変更する必要はないと思いますが、32または64のカーネルはすでに3色をキャプチャするのに十分です! –

+0

ありがとうございます。私はあなたが正しいと確信しています。私の質問はより理論的なものであり、単色より多くの色を理論上保証する必要があります。 – hmmmbob