5

私はしばらくの間、CNNで深く学習しており、モデルの入力は常に画像の二乗であることを認識しています。なぜ畳み込みニューラルネットワークの入力は常に画像の二乗ですか?

私は、畳み込み演算またはニューラルネットワークアーキテクチャ自体にそのような特性が要求されないことを理解しています。

だからこそ、その理由は何ですか?

ありがとうございました!

答えて

1

正方形の画像が目に喜んでいるためです。しかし、正方形でない画像には、ドメインが必要とするアプリケーションがあります。例えば、SVHNの元のデータセットは数桁の画像なので、矩形の画像はコンベネットへの入力として使用されます。here

1

二乗画像は必要ありません。

  • スケーリング:私はそれには2つの「理由」を参照してください。画像は別のアスペクト比(や風景/ポートレートモード)の平均で、これは最小誤差を導入可能性があるから自動的にスケーリングされた場合
  • 出版/視覚化:平方画像Suhas Pillaiさんから
1

を一緒に表示するのは簡単です:

問題は、畳み込み層ではありませんが、それは完全に接続された です固定数のニューロンを必要とするネットワークの層。 の例では、小さな3層ネットワーク+ softmax層を取る。最初の2 のレイヤーが畳み込み+最大プールの場合、畳み込みの前後で同じ次元が であると仮定し、プールするとdim/2が減少します。これは通常の場合で、 です。 第1層に4つのフィルタ、第2層に6つのフィルタを有する3×32×32(C、W、H)の画像については、 第2層の終わりに最大累積の出力が6 * 8 * 8 、3 * 64 * 64の画像の場合、第2層出力の最後に は6 * 16 * 16となります。完全に接続する前に、これを 単一ベクトル(6 * 8 * 8 = 384ニューロン)としてストレッチし、完全に接続した操作を行います。 異なるサイズの画像には、完全に異なるレイヤーのレイヤーを連結することはできません。これに取り組む1つの方法は、最後の畳み込みレイヤーの出力を完全に の接続されたレイヤーに同じ数のニューロンがあるように固定数のビン(1つのニューロン)にプールするように空間ピラミッド プーリングを使用することです。 畳み込みネットワークを完全にチェックすることもできます。畳み込みネットワークでは正方形でない画像を撮影することができます。

関連する問題