0

畳み込みニューラルネットワークの数学的詳細についての質問です。ネット(画像分類であるの目的)のアーキテクチャは サイズ5×5の3つのフィルタを畳み込むことによって形成されるそのようなCNNの畳み込みレイヤーから完全に接続されたレイヤーへの入力の寸法

  • 入力画像32×32
  • まず隠れ層3x28x28(歩幅= 0のようであると仮定する 活性2x2の領域にわたってプーリング
  • プーリング層() 3x14x14
  • 第二中間層6x10x10の出力を生成することによって続き、パディング)は、(6つのフィルタサイズ5×5の 、歩幅= 0で畳み込むことによって形成されていませんパディングなし) 、 活性化
  • プーリング層続いて100個のニューロン
  • と 6x5x5
  • 完全接続層(FCN)-1の出力を生成する(2×2領域上プーリング)
  • 完全接続層(FCN)-2 10とニューロン

これまでの私の読んだところでは、6x5x5行列のそれぞれがFCN-1に接続されていることがわかりました。私は2つの質問があります。どちらも、ある層からの出力が別の層に送られる方法に関連しています。

  1. 第2のプール層の出力は6x5x5です。これらはFCN-1にどのように供給されますか?私が意味するのは、FCN-1の各ニューロンは、入力(または1x1行列)としてスカラーを取るノードとして見ることができるということです。では、6x5x5の入力をどのように入力しますか?私は最初に、6x5x5行列を平坦化して150x1配列に変換し、150個の訓練点を持つかのようにニューロンに供給すると考えました。しかし、フィーチャ・マップを平坦化しても、イメージの空間アーキテクチャの議論は敗北しないのですか?
  2. 最初のプール層から、サイズ14x14の3つのフィーチャマップを取得します。第2層のフィーチャマップはどのように生成されますか?私が最初の畳み込みレイヤーから得た3つのフィーチャーマップの同じ領域(フィーチャーマップの左上から5×5の領域)を見るとします。これらの3つの5x5パッチは、次の一連のフィーチャマップで対応する領域を生成するための個別のトレーニング例として使用されていますか?もしそうなら、3つの特徴マップが入力画像のRGB値であればどうなるでしょうか?別のトレーニングの例として引き続き使用しますか?

答えて

2

一般的にどのような(VGG 16、VGG 19のような)いくつかのCNNがやっていることはあなたの例ではFC層への入力は(None,150)になるが、他のCNNsますので、彼らは、MAX_POOL層から3次元テンソル出力を平らであり、 (ResNet50のように)グローバルmax関数を使用して6x1x1(出力テンソルの次元)を取得し、それを平坦化して((None,6)になる)、FCレイヤに送ります。

This link has an image to a popular CNN architecture called VGG19。空間的配置敗北を平坦化特徴

は、あなたがイメージをフラット化する場合、ピクセル位置は X IJ(私があると言うことができます、あなたのクエリに答えるために。第i行、第j列= n*i+j、ここでnは画像の幅)ここで、行列の表現に基づいて、その上位隣人は X i-1、j (n*(i-1)+j)などとなります。ピクセルとその隣接ピクセルとの関係が存在する場合、FCレイヤはその情報を反映するように自動的に重みを調整する。

したがって、ネットワークの終わりに標準のANNに供給される出力テンソル(ベクトルの次元/フィーチャに類似)をフィーチャ抽出レイヤとして使用すると、convo->activation->poolingレイヤグループを考えることができます。

+1

太字、斜体、コードの機能とともに改行と段落を使用して、回答をより明確に表示してください – Subaz

関連する問題