1

私は、カスタムデータセットよりも速いRCNNをトレーニングしましたが、異常な結果がありました。トレーニングの反復回数が増え、ボットの検証とトレーニングデータのためにネットワークのパフォーマンスが低下します。損失は​​減少していますが、これは驚くべきことです。目的は葉を検出することです。以下は高速/高速RCNの座標系

は、ここで注意すべき事は165000回の反復の後で、ネットワークはあまりにも背景にボックスを描画するために開始し、それぞれ200および165000の反復の画像

Output at 200 Iterations

output at 165000 Iterations

です。

これは、トレーニングデータのアノテーションに何らかの不具合があり、トレーニングで損失が減っているためだと思います。

私が作った注釈ファイルには、画像の左上にある(0,0)というmatlabに似た座標系があります。したがって、各境界ボックスの左上隅は(x_min、y_min)、右下は( x_max、y_max)。それがそうであるかどうか、これがそうであれば、他に何が問題になるのでしょうか?

答えて

1

ペーパー高速R-CNNは、長方形とアンカーをx_center、y_center、widthとheightとしてエンコードします。 これはまた、あなたが考えるアンカーのエンコーディングの選択にもよります。あなたは、元の出版物からのコードを使用した場合のボックス回帰を境界とするために、紙

に記載されているように私は思うけれども、あなたが箱をリファクタリングする必要があり、我々は次の4つの座標のパラメータ化を採用[5]:

[...]

ここで、x、y、w、およびhは、ボックスの中心座標と幅と高さを示します。ページ5 https://arxiv.org/pdf/1506.01497v3

の:変数x、XA、およびX *は、それぞれ、(同様に、Yは、H、W)


ソース予測ボックス、アンカーボックス、及びグラウンドトゥルースボックスのためのものです