ビデオに関するクラスディスカッションに参加している生徒の頭部や四肢を追跡するのと同様の問題を解決しなければなりませんでした。私たちは、Thomas Broxの最新のオプティカルフロートラッキングを使って実験しました(link、大変位オプティカルフローの部分を参照してください)。私たちのケースでは、約20テラバイトのビデオが処理されていました。オプティカルフローコードのC++およびGPU実装を使用する。私はあなたもMatlabがビデオ分析を行うには非常に遅いことを発見すると思います。
オプティカルフローは、詳細な動きベクトルを返します。次に、ビデオの最初のフレームの口と顎の元の境界ボックスにマークを付けるだけで、それらのピクセルのオプティカルフローによって与えられたトラックをたどることができます。これは、通常、バウンディングボックスの良好なシーケンスを提供します。あなたはおそらく、あなたがきれいにしなければならないエラーがあります。あなたはすぐにエラーをチェックするための境界ボックスのシーケンスを再生するPythonスクリプトを書くことができます。
私が書いたコードはPythonであり、あなたのデータ設定や問題に適応するのはおそらく簡単ではありませんが、アフィン変換に基づいたオプティカルフロートラッキングコードlinked hereが見つかりました「高密度オプティカルフローを使用したオブジェクトトラッカー」
簡単な答えは、これはビジョン研究者にとって非常に困難で厄介な問題であるということです。ほとんどの人はビデオをフレームごとにMechanical Turkに配置し、人間の労働者には分析する1フレームあたり約2セントを支払うことでそれを「解決」します。これはあなたにかなり良い結果をもたらします(Mechanical Turkerから収集した後でもそれらをきれいにする必要があります)が、トンのビデオを持っているときにはあまり役に立ちません。機械でランダムに分析されるのを待つことはできませんターク。
関心領域注釈に対する解決策はありません。これを自動的に行ったサードパーティ製のソフトウェアには、おそらくかなりの費用をかけなければならないでしょう。私の最高の推測は、face.comがあなたに請求するものとそれがどれほどうまくいくかをチェックすることです。あなたやあなたのデータセットとの間には、これまた機械的なTurkのための研究者秘密保持契約に違反しないように注意してください。
出典
2012-03-11 01:40:53
ely
「フレームごとにビデオフレームを切り取ることができると思っていました」と言えば、MATLABは魔法のように唇がどこにあるかを推測しますか?それともあなたがフレームを作ってくれるのですか? – Daniyar