CNNの畳み込みレイヤーから完全に接続されたレイヤーへの入力の寸法

畳み込みニューラルネットワークの数学的詳細についての質問です。ネット（画像分類であるの目的）のアーキテクチャはサイズ5×5の3つのフィルタを畳み込むことによって形成されるそのようなCNNの畳み込みレイヤーから完全に接続されたレイヤーへの入力の寸法

入力画像32×32
まず隠れ層3x28x28（歩幅= 0のようであると仮定する活性2x2の領域にわたってプーリング
プーリング層（） 3x14x14
第二中間層6x10x10の出力を生成することによって続き、パディング）は、（6つのフィルタサイズ5×5の、歩幅= 0で畳み込むことによって形成されていませんパディングなし）、活性化
プーリング層続いて100個のニューロン
完全接続層（FCN）-1の出力を生成する（2×2領域上プーリング）
完全接続層（FCN）-2 10とニューロン

これまでの私の読んだところでは、6x5x5行列のそれぞれがFCN-1に接続されていることがわかりました。私は2つの質問があります。どちらも、ある層からの出力が別の層に送られる方法に関連しています。

第2のプール層の出力は6x5x5です。これらはFCN-1にどのように供給されますか？私が意味するのは、FCN-1の各ニューロンは、入力（または1x1行列）としてスカラーを取るノードとして見ることができるということです。では、6x5x5の入力をどのように入力しますか？私は最初に、6x5x5行列を平坦化して150x1配列に変換し、150個の訓練点を持つかのようにニューロンに供給すると考えました。しかし、フィーチャ・マップを平坦化しても、イメージの空間アーキテクチャの議論は敗北しないのですか？
最初のプール層から、サイズ14x14の3つのフィーチャマップを取得します。第2層のフィーチャマップはどのように生成されますか？私が最初の畳み込みレイヤーから得た3つのフィーチャーマップの同じ領域（フィーチャーマップの左上から5×5の領域）を見るとします。これらの3つの5x5パッチは、次の一連のフィーチャマップで対応する領域を生成するための個別のトレーニング例として使用されていますか？もしそうなら、3つの特徴マップが入力画像のRGB値であればどうなるでしょうか？別のトレーニングの例として引き続き使用しますか？

出典

2017-07-17 Clock Slave

一般的にどのような（VGG 16、VGG 19のような）いくつかのCNNがやっていることはあなたの例ではFC層への入力は(None,150)になるが、他のCNNsますので、彼らは、MAX_POOL層から3次元テンソル出力を平らであり、（ResNet50のように）グローバルmax関数を使用して6x1x1（出力テンソルの次元）を取得し、それを平坦化して（(None,6)になる）、FCレイヤに送ります。

This link has an image to a popular CNN architecture called VGG19。空間的配置敗北を平坦化特徴

は、あなたがイメージをフラット化する場合、ピクセル位置は X IJ（私があると言うことができます、あなたのクエリに答えるために。第i行、第j列= n*i+j、ここでnは画像の幅）ここで、行列の表現に基づいて、その上位隣人は X _i-1、j (n*(i-1)+j)などとなります。ピクセルとその隣接ピクセルとの関係が存在する場合、FCレイヤはその情報を反映するように自動的に重みを調整する。

したがって、ネットワークの終わりに標準のANNに供給される出力テンソル（ベクトルの次元/フィーチャに類似）をフィーチャ抽出レイヤとして使用すると、convo->activation->poolingレイヤグループを考えることができます。

出典

2017-09-09 03:48:18

太字、斜体、コードの機能とともに改行と段落を使用して、回答をより明確に表示してください – Subaz

CNNの畳み込みレイヤーから完全に接続されたレイヤーへの入力の寸法

答えて

関連する問題