2017-04-18 8 views
0

最近、私はMATLABのRCNN深い学習の例hereを使って遊んできました。この例では、MATLABは入力サイズが32x32の基本的な15層CNNを設計しています。 CIFAR10データセットを使用して、このCNNを事前にトレーニングします。 CIFAR10データセットには32x32サイズのトレーニング画像も含まれています。後で彼らは停止標識を検出するためにこのCNNを微調整するために、停止標識の小さなデータセットを使用します。停止標識のこの小さなデータセットにはわずか41の画像しかありません。彼らはCNNを微調整し、RCNNネットワークを訓練するためにこれらの41の画像を使用します。これが停止標識を検出する方法です。 enter image description here 境界ボックスは、上部に小さな部分を除いて、全体の停止標識をほぼ覆っています。 コードを使ってプレーする私は、CIFAR10データセットでPASCAL VOCデータセットで事前トレーニングされた同じネットワークを「航空機」クラスに対してのみ微調整することに決めました。 これらは私が得るいくつかの結果である:あなたが検出されたバウンディングボックスを見たよう result 1ディープ・ラーニング・アーキテクチャの入力サイズはどれくらい重要ですか?

result 2

がやっと全体の飛行機をカバーするには、このため、後で評価するときに精度が0になります。私は、MATLABの例で言及された元のRCNNの論文では、入力サイズ227x227、CNNには25のレイヤーがあることを理解しています。これが検出が正確でない理由である可能性がありますか? CNNの入力サイズは最終結果にどのように影響しますか?

答えて

1

ほとんど確実にはい! ネット経由で画像を渡すと、ネットは最も関連性の高いデータが得られるまで画像から取得したデータを最小限に抑えようとします。このプロセスの間、入力は何度も縮小します。たとえば、必要なものよりも小さいイメージをネットに挿入すると、ネットのパス中にイメージのすべてのデータが失われる可能性があります。 あなたのケースでは、結果のオプションの理由は、ネットが限られた解像度で機能を探し、大きな飛行機が高解像度を超えている可能性があるということです。

関連する問題