高速rcnnのROIレイヤは何ですか？

最後の畳み込みレイヤーのアクティブ化関数に従って領域プロポーザルのサイズを変更すると、何が起こっていますか？ following CNNでのオブジェクト検出に関するチュートリアルでは、高速RCNNについて述べました。ここで彼らはROI層と何が起きているかについて言及しました。しかし、地域の提案を各セルの最終コンバージョンレイヤーの有効化に合わせてリサイズすると、数学的に何が起こるのか分かりません。高速rcnnのROIレイヤは何ですか？

出典

2017-04-15 Shamane Siriwardhana

関心領域（ROI）のプーリング：不均一なサイズの

それは（ここでは、convnet特徴マップ）入力にをプール最大を行い、プーリング層の一種であり、固定サイズ（例えば7x7）の小さな特徴マップを生成する。この固定サイズの選択は、ネットワークのハイパーパラメータであらかじめ定義されています。

このようなプーリングを行う主な目的は、訓練とテスト時間のスピードアップと、システム全体をエンドツーエンドで（共同で）訓練することです。

このプール層を使用しているため、トレーニング時間は&です。これは、元の（バニラ）R-CNNアーキテクチャと比較して速いため、Fast R-CNNに比べて高速です。

簡単な例（Region of interest pooling explained by deepsense.ioから）：

出典

2017-04-16 01:06:42 kmario23

ここで、領域プロポーザルとは、画像内の領域の形状、つまり画素の画像の部分の形状を意味し、最大フィルタ値が乗算されます。 –

ROI（関心領域）層はFast R-CNNに導入され、Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognitionに導入された空間ピラミッドプーリング層の特殊なケースです。 ROI層の主な機能は、完全結合層のサイズ制約のために、固定長出力に任意のサイズの入力を再形成することです。

ROI層が下に示される仕組み：4×4（青）、2×2（緑色：このイメージに

は、任意のサイズの入力画像は3つの異なるウィンドウがあり、この層に供給されます。）、1x1（灰色）を使用して、Fがそれぞれ16×F、4×F、および1×Fの固定サイズの出力を生成する。次に、これらの出力は、完全連結層に供給されるベクトルに連結されます。

出典

2017-04-15 23:11:39

あなたは "理由は完全に接続された層におけるサイズ制約の" ポイントについて詳しく説明することはできます。我々はピクセル値（スカラ）をFC層のニューロンに供給しているので、なぜ入力マトリックスのサイズが重要であるか。 – deadcode

高速rcnnのROIレイヤは何ですか？

答えて

関連する問題