2
Faster R-CNNを提示しているpaperを読んだことがありますが、リージョンの提案がスライディングウィンドウで行われているかどうかはわかりません。より速いR-CNNは、領域を提案するためにスライディングウィンドウを使用しますか?
私は、それは確かに通常のスライディングウィンドウであることを考えて作られた部分がこの図です:Figure 3
そうであれば、それはそれを行うには悪い方法ではないでしょうか?
Faster R-CNNを提示しているpaperを読んだことがありますが、リージョンの提案がスライディングウィンドウで行われているかどうかはわかりません。より速いR-CNNは、領域を提案するためにスライディングウィンドウを使用しますか?
私は、それは確かに通常のスライディングウィンドウであることを考えて作られた部分がこの図です:Figure 3
そうであれば、それはそれを行うには悪い方法ではないでしょうか?
この図は、実際にはスライドウィンドウです。しかし、キャッチがありますが、このスライディングウィンドウは実際にコンボリューションとして実装されているため、コンボルーションは高度に最適化された操作(およびネットワークの残りの部分には多くの畳み込みレイヤがあります)として効率的に実装できます。
それ自体悪くない。プロポーザルが生成されるフィーチャマップのサイズは、使用されるネットワークに応じて7×7程度ですが、チャネル数は非常に多くなります。これはパフォーマンス上の大きな問題となります。