現在、オブジェクト検出のためのyolo 9000モデルをテストしています。この画像は13x13ボックスとP(オブジェクト)を計算する各ボックスに分割されています。しかし、どうやってそれを計算できますか?オブジェクトこのボクセでかどうかがある場合にどのようにモデルを知ることができ、彼らはpaper(2ページ目で述べたように、私はYoloがYOLO 9000のP(オブジェクト)を計算する方法
おかげで、
現在、オブジェクト検出のためのyolo 9000モデルをテストしています。この画像は13x13ボックスとP(オブジェクト)を計算する各ボックスに分割されています。しかし、どうやってそれを計算できますか?オブジェクトこのボクセでかどうかがある場合にどのようにモデルを知ることができ、彼らはpaper(2ページ目で述べたように、私はYoloがYOLO 9000のP(オブジェクト)を計算する方法
おかげで、
をtensorflow使用しています
ことを理解するのに役立ち、私が必要としてくださいセクション2)確信度= P(オブジェクト)* IOU。しかし、そのパラグラフでは、オブジェクトがあれば、確信スコアはIOU、そうでなければゼロになると述べています。だからそれは単なるガイドラインです。
私はそれを理解していますが、画像中の小さな領域だけではどうしたらよいのでしょうか?抽出された特徴の小さな領域では、細胞はこの領域を分類できますか? –
私はそれをスライディングウィンドウ操作として取ります。ここでは元の画像を49個の正方形に分割します。地上の真理は元の画像から得られる。しかし、予測する機能は、最後のコンバレイヤー7 * 7 –
で取得されますが、これはトレーニング用です。テストステップについては、未知のイメージを与え、ネットワークに渡すと、下位レイヤーが抽出します画像を7X7に分割しますが、ここではぼんやりとした真実がありません。ちょうど小さなカーナビリズムでは、セルよりも大きなサイズのオブジェクトをどのようにジェノレッとすることができますか、詳細を教えてください? –
彼らは信頼スコア= P(オブジェクト)* IOUのために訓練します。グラウンド・トゥルース・ボックスの場合、それらはP(オブジェクト)= 1をとり、残りのグリッド・ピクセルについては、グラウンド・トゥルースP(オブジェクト)はゼロです。グリッド位置にあるオブジェクト、つまりオブジェクトがない場合は0を出力し、部分オブジェクトの場合はIOUを出力し、オブジェクトが存在する場合は出力1を出力するようネットワークをトレーニングしています。そのため、テスト時には、その場所にオブジェクトがあるかどうかをモデルで伝えることができました。
実際には13x13グリッドセルがありますが、5x13x13のアンカーボックスごとにP(オブジェクト)が計算されます。
アンカーボックスに移動すると、クラス予測メカニズムが空間位置から切り離され、代わりにすべてのアンカーボックスのクラスとオブジェクト性が予測されます。
私はここで新しいので、まだコメントできませんが、テスト時間について不思議であればRPNのように動作します。各グリッドセルでは、5つのアンカーボックスのそれぞれがグリッドセルよりも大きいバウンディングボックスを予測し、非最大の抑制を使用して、分類を行うために最上位の数のボックスを選択します。
P(オブジェクト)は単なる確率であり、そこに実際にオブジェクトがあるかどうかをネットワークが「知る」ことはありません。
region_layer.cのforward_region_layerメソッドのソースコードを見て、損失がどのように計算されているかを調べることもできます。
私はこれも探しています。説明はあまりありません。また、彼らはp(クラス/オブジェクト)を計算します。 quoraのセッションhttps://www.quora.com/How-do-Multi-Object-detection-with-YOLO-Real-time-CNN-worksに詳しい説明があります。 –