2016-08-17 16 views
0

私はコンピュータビジョンの新人であり、SIFTであるコンピュータビジョンコミュニティで非常に人気のあるトピックを学び始めています。しかし、私は1つの実装の詳細と混同しています:SIFTの最終的なディスクリプタ

キーポイントの検出後、最終的なSIFT記述子として機能する4つのローカルヒストグラムを構築する必要がありますか?各局所ヒストグラムは、4×4ピクセルの局所近傍の向きを含む。したがって、全体的に16倍の16倍が256ピクセルになります。これはキーポイントを中心とする近傍にあります。したがって、この近傍は16×16グリッドのピクセルです。

しかし、この近所はどのように詳細に決定されていますか?キーポイントの向きに沿って近隣が回転していますか?この256ピクセル近傍のピクセルは、キーポイントが検出されたスケールに従って分離されていますか?

ありがとうございました!

答えて

0

まず、SIFTキーポイントが複数のスケールで抽出されます。記述子は、それぞれのスケールを使用して計算されます。だから、あまりにも曖昧なので、私は「ピクセル」とは言いません。あなたの質問のために、私はoriginal paper(6.1節)を引用したいと思います:

まず画像勾配の大きさ と向きがガウスのレベルを選択する キーポイントのスケールを使用して、キーポイントの場所を中心にサンプリングされ、画像のぼかし。

オリエンテーション 不変を達成するために、ディスクリプタの座標と勾配方向はキーポイントの向きに合わせて に相対回転します。

σが記述子ウィンドウの幅の半分に等しいガウス重み関数 は、各サンプルポイントの大きさに重みを割り当てるために使用されます。

これがあなたの質問に答えることを願っています。何か不明な点がある場合は、お気軽にお問い合わせください。

関連する問題