2017-10-20 17 views
0

最近ニューラルネットワークでコースを受講し、研究作業を行うことに決めました。私が考えているのは、一般的にはという口唇の読書として知られている、唇の動きを認識するネットワークを設計することです。ニューラルネットワークによるビデオ分析の推奨

私は、ニューラルネットワークに関する理論を知っているが、私は畳み込みニューラルネットワークを設計することにしましたが、私は問題となる画像のビデオまたは配列の特徴を抽出する方法について考えを持っています私が設計しようとしているネットワークへの入力。

完全な調査に専念する前に、主にフィーチャー抽出パートに私にそれを行う方法の概念やアイディアを教えて少し助けたいと思っていました。

母音や音節は、ビデオで約1〜2秒間続き:私は、一般的に考えている何

は次のとおりです。そのビデオから、私は唇がどのように動くかを示す一連の画像を抽出する必要があります。私が約10枚または15枚の画像を選択したと仮定すると、それらの画像は、処理後、特性を得るための "入力"になるはずです。

しかし、私はすでに "Letterize a letter"という古典的な例のように単一の画像を分析していますが、前にも述べたように、解析する一連の画像があると思います。

私はこのアイデアが正しい方向にあるかどうかを知りたいと思います。もしそうでなければ、私はこれで私を導くでしょう。私は、上記で明快になったことを願っています。ありがとう、ありがとう。

答えて

0

このホワイトペーパーでは、ニューラルネットワークへの入力として一連のフレームを処理する方法を決定するのに役立ちます。特定のサウンドのすべてのフレームを1つの画像に連結(結合)して、トレーニングや評価のためにネットにフィードするように見えます。

http://cs231n.stanford.edu/reports/2016/pdfs/217_Report.pdf

+0

ありがとうございました! –