ImageNetデータのTensorflowでオブジェクトのローカライザとして事前に訓練されたVGG16を使用しようとしています。彼らの論文では、グループは、基本的にはsoftmaxレイヤーを取り除き、バウンディングボックス回帰のために4D/4000D fcレイヤーを投げることだけを述べています。私はここで空想的な何かをしようとしていない(スライディングウィンドウ、RCNN)、ちょうどいくつかの平凡な結果を取得します。CNNオブジェクトのローカライズ前処理?
これは初めてのことですが、ここではローカリゼーションの前処理について混乱しています。この論文では、イメージを最短で256にスケーリングし、中央224x224の作物をとり、これを訓練すると言う。私は何度も見てきましたが、ローカリゼーションデータを処理する方法について簡単な説明を見つけることはできません。
質問:?どのように人々は通常、ここでバウンディングボックスを扱うん...
- あなたはtf.sample_distorted_bounding_boxコマンドのようなものを使用して、それに基づいて画像を再スケールますか?
- イメージ自体を再スケール/トリミングしてから、変換後の縮尺で境界ボックスを補間しますか?これによって、場合によっては負のボックス座標が得られないでしょうか?
イメージごとに複数のオブジェクトはどのように扱われますか?
最初から1つのバウンディングボックスを選択してそれをトリミングしてからこの作物を訓練しますか?
または、全体(中央で切り抜かれた)イメージをフィードして、何とか1つ以上のボックスを予測しようとしますか?
- これは、検出またはセグメント化(MS-CoCoなど)の課題に一般化しているのですか、それとも全く異なるのですか?
ものは おかげ
このスライドが発生すると、入力画像のさまざまな作物を取るだけでスライドはありますか?それとも、何とかネットワーク・アーキテクチャーに組み込まれていますか?.. – KTF
トレーニングの後に。各ウィンドウについて、ネットワークが存在を推測するようにしてから、すべてのポジティブウィンドウの共通部分に境界があるようにします。 – bold
ポジティブウィンドウはネットワークがバイナリの予期しているかどうかを予測することを意味しますか? – KTF