1

SegNetに、著者らが提案したアーキテクチャを以下に示します。 enter image description hereSegNetアーキテクチャでお互いの後に置かれた2つの畳み込みレイヤについては、

混乱しているのは、1と2のように2つの畳み込みレイヤーが各ビルディングブロックに続いているということです。畳み込みレイヤーを集める代わりに、このように配置する主な動機単一の畳み込みレイヤーに変換できますか?

答えて

1

添付した図の下部にある凡例を見ると、このSegNetの図では、青色のレイヤーが「Conv + BatchNormalization + ReLU」の略であることがわかります。つまり、非線形起動です、2つの線形畳み込みの間には、"ReLU"である。

かかわらず、この例の、一つが明示的に線形動作のランクを規則化/制御するためにせずに任意の非直線性を他のの上に2つのリニアユニット1を配置することをお勧めします。たとえば、how to reduce dimensionality of a fully connected layer using SVD trickを参照してください。

+1

@AdiShavit編集のおかげで:) – Shai

+0

あなたの答えに感謝します。私はまだこの質問について混乱しています。たとえば、コンバレイヤ(1とマークされている)は512のフィーチャマップを生成し、コンバレイヤ(2とマークされている)は512のフィーチャマップを生成します。 1024フィーチャマップを生成するために単一レイヤを使用しないのはなぜですか? – user288609

+0

@ user288609これは等価ではありません:(a)層の間に非線形性があります。 (b)convカーネルが3x3を2回適用するのが3x3である場合は、5x5を1回(受容野に関して)適用するようなものです。このように線状のレイヤーを分割することで、より複雑な構造をモデル化することができます。 – Shai

0

SegNetは、VGGの13の畳み込みレイヤを使用します。 (2 + 2 + 3 + 3 + 3)

詳細はthis visualizationthe paperを確認してください。

紙から:

2つの3×3 CONVのスタックことを確認することは容易です。層(その間に空間的プールを有さない)は5×5の効果的な受容野を有し、そのような層は7×7の有効受容野を有する。それで、例えば、3つの3×3のコンバインのスタックを使用することで、何が得られましたか?レイヤーを1つの7×7レイヤーの代わりに使用しますか?まず、1つではなく3つの非線形整流層を組み込み、決定機能をより区別しやすくする。第3に、3層3×3畳み込みスタックの入力と出力の両方がCチャネルを有すると仮定すると、スタックはenter image description hereの重みによってパラメータ化される。同時に、単一の7×7のコンバージョンが達成されます。層は、enter image description hereのパラメータ、すなわち81%を必要とする。これは、7×7のコンバージョンに正則化を課すと見なすことができます。 3×3フィルタ(その間に非線形性が注入されている)を介して分解されるように強制する。

関連する問題