最近、私はMATLABのRCNN深い学習の例hereを使って遊んできました。この例では、MATLABは入力サイズが32x32の基本的な15層CNNを設計しています。 CIFAR10データセットを使用して、このCNNを事前にトレーニングします。 CIFAR10データセットには32x32サイズのトレーニング画像も含まれています。後で彼らは停止標識を検出するためにこのCNNを微調整するために、停止標識の小さなデータセットを使用します。停止標識のこの小さなデータセットにはわずか41の画像しかありません。彼らはCNNを微調整し、RCNNネットワークを訓練するためにこれらの41の画像を使用します。これが停止標識を検出する方法です。 境界ボックスは、上部に小さな部分を除いて、全体の停止標識をほぼ覆っています。 コードを使ってプレーする私は、CIFAR10データセットでPASCAL VOCデータセットで事前トレーニングされた同じネットワークを「航空機」クラスに対してのみ微調整することに決めました。 これらは私が得るいくつかの結果である:あなたが検出されたバウンディングボックスを見たよう ディープ・ラーニング・アーキテクチャの入力サイズはどれくらい重要ですか?
がやっと全体の飛行機をカバーするには、このため、後で評価するときに精度が0になります。私は、MATLABの例で言及された元のRCNNの論文では、入力サイズ227x227、CNNには25のレイヤーがあることを理解しています。これが検出が正確でない理由である可能性がありますか? CNNの入力サイズは最終結果にどのように影響しますか?