これは間違いなく初心者の質問です。 caffeのビデオ分類タスク。ニューラルネットワークへの入力のタイプは重要ですか?
私はビデオ(画像のグループ)で鍛えなければならないニューラルネットワークを持っています。 いくつかのオプションからネットワークへの入力の形状を変更することができます。
すべての場合において、ネットワーク・アーキテクチャ(構成および層数)&の学習パラメータ(LR /減衰/正規化など)は一定であると仮定します。
たとえば、ネットワークへの入力を次のいずれかの方法で行うことができます。
1)BATCH_SIZE X(no_of_imgs * no_of_channels)×高さ×幅{3次元入力}
2)BATCH_SIZE X no_of_imgs X no_of_channels X高さ×幅{4次元入力}
3)BATCH_SIZE X no_of_channels x no_of_imgs x高さx幅{4次元入力}
入力形状はネットワークの精度にどのように影響しますか?
ビデオ分類も行う[C3Dバージョンのcaffe](https://github.com/facebook/C3D)を見てきました。しかし、3Dコンボルーションでは、入力batch_size x no_of_channels x no_of_imgs x高さx幅(4次元入力)が必要です。私はcaffeの通常のバージョンを使用するつもりです。私は5%の精度で1)アプローチを試みました。 –
私もそれは大丈夫だろうと思う - おそらくフィルタはこのように設計され、それはうまく動作します:) –
こんにちは私は[2ストリーム紙](http://arxiv.org/abs/1406.2199c )aginを見つけ、それらが実際にw×h×2Lの入力を与えることを見出した。ここで、Lはフレーム数である。しかし、一般的に、caffeはチャンネル* w * hの入力を受け入れます。そして、私は彼らが2Lをどのように積み上げているのかよくわからない。たとえば、すべてのRとBとG {R1、R2、... B1、B2 ... G1、G2 ....} B1、G1、R1、G2、B2 .....} ... –