TensorFlowで完全畳み込みネットワークを実装しました。これは、エンコーダ - デコーダ構造を使用する。 トレーニングを受けるとき、私はいつも同じ画像サイズ(224x224
、無作為な作物を使用しています)を使用し、すべてうまく動作します。動的テンソルアライメント/クロッピング
干渉フェーズでは、フル画像(切り抜かれていない画像)を使用したいので、一度に1つの画像を予測したいと思います。たとえば、そのような画像のサイズは[406,256]
です。そしてここに問題があります。 エンコーダ/デコーダアーキテクチャでは、2つのテスタ(z = x + y)を追加します。訓練するとき、両方のテンソルのサイズが一致します。私の単一のイメージを予測するとき、サイズは一致しません(テンソルサイズ:[1,47,47,64]
対[1,46,46,64]
)。私はConvとPoolレイヤーで何らかの丸めを行うことが原因だと思います。
私が望む任意のイメージサイズで、アーキテクチャを変更して、どのような作品にする必要がありますか?丸めパラメータを変更する必要がありますか?または、テンソルの「クロッピング」を追加しますか?アーキテクチャの実装に
リンク: https://gist.github.com/melgor/0e43cadf742fe3336148ab64dd63138f (問題はライン166で発生)
入力を '[224、224]'にサイズ変更する –
入力のサイズを変更する必要はありません。なぜなら、私はいくつかの '空間情報 'を失うからです。私のモデルは正しいアスペクト比(画像のサイズ変更なし)で学習されました。干渉で私は正しいアスペクト比を望むだろう。 また、画像を複数の矩形領域に分割してマージすることもできます。しかし、私はこのモデルが妥当な速さで動作し、異なる入力解像度でモバイルで作業したいと思っています。 – melgor89