私はコンピュータビジョンの新人であり、SIFTであるコンピュータビジョンコミュニティで非常に人気のあるトピックを学び始めています。しかし、私は1つの実装の詳細と混同しています:SIFTの最終的なディスクリプタ
キーポイントの検出後、最終的なSIFT記述子として機能する4つのローカルヒストグラムを構築する必要がありますか?各局所ヒストグラムは、4×4ピクセルの局所近傍の向きを含む。したがって、全体的に16倍の16倍が256ピクセルになります。これはキーポイントを中心とする近傍にあります。したがって、この近傍は16×16グリッドのピクセルです。
しかし、この近所はどのように詳細に決定されていますか?キーポイントの向きに沿って近隣が回転していますか?この256ピクセル近傍のピクセルは、キーポイントが検出されたスケールに従って分離されていますか?
ありがとうございました!