1

私はこの論文を、Multi-Scale Context Aggregation by Dilated Convolutionsに送りました。ディルドされた畳み込みとパッディング付き最大プールについて

max-pooling/downsamplingとは対照的に、拡張コンボリューションを使用してグローバルコンテキストを取得することを提案しています。プールは画像を縮小し、拡大した畳み込みはそうしないからです。

私の最初の質問は次のとおりです。彼らはVGG16を変更し、最後の二つのmax-プーリング層を除去するが、彼らはただ、すべての最大プーリング層を除去しなかった理由で、他の3 MAX-プーリング層を残しますか。?計算効率?これは小さな画像になりませんか?彼らはどのように元のサイズ、双線形補間にそれをどのように拡大しますか?

私の2番目の質問は次のとおりです。彼らは紙に注意してください。

「我々はまた、中間の特徴マップの詰め物を取り除く 中間のパディングが、元の分類ネットワーク、 で使用されたが、密集した予測では必要ないし正当化されていない」

あなたはパッドを使用すると、さらに特に拡張型畳み込みは非常に大きな受容野を持つことができることを考えると、私たちの最終的な出力の大きさを縮小しませんしませんか?なぜそれは、ケースになりますか

答えて

1

あなたの最初の質問に答えると、あなたは正しいと思います。出力は元のサイズの1/8で、補間を使って元のサイズにアップサンプルします。証拠はソースコードhereで入手できます。 test.pyファイルtest_imageでは、デフォルトズームは8に設定されています(103行目)。より多くの証拠がtrain.pyファイルにあります。ここでも、デフォルトのズームがTrueに設定され、アップサンプリングレイヤが使用されています。

サイズが既に縮小されているため、サイズを保持するためにパディングを使用する必要はありません。その場合、パディングは必要ではないと考えられる理由は、セグメント化は密集した予測のケースであり、したがって私たちの側からのいくつかのピクセルを導入することは直感的に意味をなさないことです。しかし、同じことについて主張する最良の方法は、中間プーリングの有無にかかわらず、実際にネットワークをテストすることです。

関連する問題