畳み込みニューラルネットワークの数学的詳細についての質問です。ネット(画像分類であるの目的)のアーキテクチャは サイズ5×5の3つのフィルタを畳み込むことによって形成されるそのようなCNNの畳み込みレイヤーから完全に接続されたレイヤーへの入力の寸法
- 入力画像32×32
- まず隠れ層3x28x28(歩幅= 0のようであると仮定する 活性2x2の領域にわたってプーリング
- プーリング層() 3x14x14
- 第二中間層6x10x10の出力を生成することによって続き、パディング)は、(6つのフィルタサイズ5×5の 、歩幅= 0で畳み込むことによって形成されていませんパディングなし) 、 活性化
- プーリング層続いて100個のニューロン と 6x5x5
- 完全接続層(FCN)-1の出力を生成する(2×2領域上プーリング)
- 完全接続層(FCN)-2 10とニューロン
これまでの私の読んだところでは、6x5x5行列のそれぞれがFCN-1に接続されていることがわかりました。私は2つの質問があります。どちらも、ある層からの出力が別の層に送られる方法に関連しています。
- 第2のプール層の出力は6x5x5です。これらはFCN-1にどのように供給されますか?私が意味するのは、FCN-1の各ニューロンは、入力(または1x1行列)としてスカラーを取るノードとして見ることができるということです。では、6x5x5の入力をどのように入力しますか?私は最初に、6x5x5行列を平坦化して150x1配列に変換し、150個の訓練点を持つかのようにニューロンに供給すると考えました。しかし、フィーチャ・マップを平坦化しても、イメージの空間アーキテクチャの議論は敗北しないのですか?
- 最初のプール層から、サイズ14x14の3つのフィーチャマップを取得します。第2層のフィーチャマップはどのように生成されますか?私が最初の畳み込みレイヤーから得た3つのフィーチャーマップの同じ領域(フィーチャーマップの左上から5×5の領域)を見るとします。これらの3つの5x5パッチは、次の一連のフィーチャマップで対応する領域を生成するための個別のトレーニング例として使用されていますか?もしそうなら、3つの特徴マップが入力画像のRGB値であればどうなるでしょうか?別のトレーニングの例として引き続き使用しますか?
太字、斜体、コードの機能とともに改行と段落を使用して、回答をより明確に表示してください – Subaz