2016-07-07 13 views
0

私は、以下で読むことができる完全に畳み込み的なニューラルネットワークU-Netを持っています。さまざまな入力を使用した完全畳み込みネットワーク

https://arxiv.org/pdf/1505.04597.pdf

私は、画像のピクセル毎の分類を行うためにそれを使用したいです。私はトレーニング画像を512x512と768x768の2種類のサイズで用意しています。私は、最初のステップではサイズ(256,256,256,256)、後者では(384,384,384,384)のサイズの反射パディングを使用しています。私は畳み込みの前に連続するパディングを行い、入力の大きさの出力を得る。

私のパディングは画像/入力のサイズに依存するので、私は一般化モデル(私はTorchを使用しています)を構築することはできません。

このような場合、どのようにパディングが行われますか?

私は深い学習に新しいです、どんな助けも素晴らしいでしょう。ありがとう。

答えて

0

お使いのモデルは、最初のレイヤーのサイズの画像のみを受け取ります。ネットワークに転送する前に、すべてを前処理する必要があります。そうするためには、あなたが使用することができます。

image.scale(img, width, height, 'bilinear')

img私は間違っていないならば、それは* 572である(スケールする画像、widthheightモデルの第一層のサイズになります572)、'bilinear'は画像を拡大縮小するために使用するアルゴリズムです。

画像の平均を抽出するか、またはモデルの訓練方法に応じてBGRに変更する必要があることに注意してください。

0

最初に行うことは、すべての画像を同じサイズに処理することです。 CONVレイヤーの入力では、すべてのイメージが指定されたサイズである必要があります。

Caffeでは、reshapeがprototxtファイル内にあります。 Torch、I createModelの前にドロップできる同等のコマンドがありますが、コマンド名は思い出せません。そうでなければ、モデルフローの外でそれを行う必要があります。

関連する問題