-1

私はKTHデータセットを使っていくつかの基本的な行動認識を実行しようとしています。ビデオ処理では、フレーム番号はz座標ですか?

私はUCF linkの3DSIFT特徴抽出器を使用しています。与えられたx、y、z座標からSIFT記述子を抽出する。

機能の検出には、私は選択的STIPS linkを使用していますが、これはアクション認識に非常に有効であることがわかりました。著者によって提供されたソースコードによれば、次の出力を生成する:

@output : corner_points, P X 4 matrix, where P is the number of interest 
%   point found in the image_stack and each interest point contains 
%   4 values :: [X,Y] coordinate of the interest point, frame 
%   number, scale at which it is detected. 

私はここに設けられたフレーム数もZ座標3DSIFTによって必要であると仮定することですか?

私はビデオクリップからSTIPSを抽出し、必要な出力を得たが、私はすべてのフレームに複数のXY値を取得しています:

[71,24,1] 
[54,26,1] 
[86,29,1] 
... 
.. 
. 

は、この予想される出力であり、SIFT3Dの入力を受け入れましたか?

+1

私が集めることから、サードパーティ製のツールボックスやコードを、少なくともそれらにリンクすることなく尋ねています。コードを見ずにどのように動作しているかを知っている人と、実行しているもののバージョンを知っている人 –

+0

@AeroEngyこれは一般的な質問であり、一般的なビデオ認識である。しかし、私はスクリプトにリンクしています。 – StuckInPhD

答えて

1

はい、次のように私が言うことができるから、3dsift Zはビデオを扱う際のフレーム番号に相当します。したがって、stipsからのx、y、frame出力は、3dsiftのx、y、z入力として機能するはずです。

関連する問題