5

最後の畳み込みレイヤーのアクティブ化関数に従って領域プロポーザルのサイズを変更すると、何が起こっていますか? following CNNでのオブジェクト検出に関するチュートリアルでは、高速RCNNについて述べました。ここで彼らはROI層と何が起きているかについて言及しました。しかし、地域の提案を各セルの最終コンバージョンレイヤーの有効化に合わせてリサイズすると、数学的に何が起こるのか分かりません。高速rcnnのROIレイヤは何ですか?

答えて

4

関心領域(ROI)のプーリング:不均一なサイズの

それは(ここでは、convnet特徴マップ)入力にをプール最大を行い、プーリング層の一種であり、固定サイズ(例えば7x7)の小さな特徴マップを生成する。この固定サイズの選択は、ネットワークのハイパーパラメータであらかじめ定義されています。

このようなプーリングを行う主な目的は、訓練とテスト時間のスピードアップと、システム全体をエンドツーエンドで(共同で)訓練することです。

このプール層を使用しているため、トレーニング時間は&です。これは、元の(バニラ)R-CNNアーキテクチャと比較して速いため、Fast R-CNNに比べて高速です。

簡単な例(Region of interest pooling explained by deepsense.ioから):

Visualization of RoI Pooling

+0

ここで、領域プロポーザルとは、画像内の領域の形状、つまり画素の画像の部分の形状を意味し、最大フィルタ値が乗算されます。 –

5

ROI(関心領域)層はFast R-CNNに導入され、Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognitionに導入された空間ピラミッドプーリング層の特殊なケースです。 ROI層の主な機能は、完全結合層のサイズ制約のために、固定長出力に任意のサイズの入力を再形成することです。

ROI層が下に示される仕組み:4×4(青)、2×2(緑色:このイメージに

enter image description here

は、任意のサイズの入力画像は3つの異なるウィンドウがあり、この層に供給されます。 )、1x1(灰色)を使用して、Fがそれぞれ16×F、4×F、および1×Fの固定サイズの出力を生成する。次に、これらの出力は、完全連結層に供給されるベクトルに連結されます。

+0

あなたは "理由は完全に接続された層におけるサイズ制約の" ポイントについて詳しく説明することはできます。我々はピクセル値(スカラ)をFC層のニューロンに供給しているので、なぜ入力マトリックスのサイズが重要であるか。 – deadcode

関連する問題