私はこの論文を、Multi-Scale Context Aggregation by Dilated Convolutionsに送りました。ディルドされた畳み込みとパッディング付き最大プールについて
max-pooling/downsamplingとは対照的に、拡張コンボリューションを使用してグローバルコンテキストを取得することを提案しています。プールは画像を縮小し、拡大した畳み込みはそうしないからです。
私の最初の質問は次のとおりです。彼らはVGG16を変更し、最後の二つのmax-プーリング層を除去するが、彼らはただ、すべての最大プーリング層を除去しなかった理由で、他の3 MAX-プーリング層を残しますか。?計算効率?これは小さな画像になりませんか?彼らはどのように元のサイズ、双線形補間にそれをどのように拡大しますか?
私の2番目の質問は次のとおりです。彼らは紙に注意してください。
「我々はまた、中間の特徴マップの詰め物を取り除く 中間のパディングが、元の分類ネットワーク、 で使用されたが、密集した予測では必要ないし正当化されていない」
あなたはパッドを使用すると、さらに特に拡張型畳み込みは非常に大きな受容野を持つことができることを考えると、私たちの最終的な出力の大きさを縮小しませんしませんか?なぜそれは、ケースになりますか