2016-05-25 4 views
2

これは間違いなく初心者の質問です。 caffeのビデオ分類タスク。ニューラルネットワークへの入力のタイプは重要ですか?

私はビデオ(画像のグループ)で鍛えなければならないニューラルネットワークを持っています。 いくつかのオプションからネットワークへの入力の形状を変更することができます。

すべての場合において、ネットワーク・アーキテクチャ(構成および層数)&の学習パラメータ(LR /減衰/正規化など)は一定であると仮定します。

たとえば、ネットワークへの入力を次のいずれかの方法で行うことができます。

1)BATCH_SIZE X(no_of_imgs * no_of_channels)×高さ×幅{3次元入力}

2)BATCH_SIZE X no_of_imgs X no_of_channels X高さ×幅{4次元入力}

3)BATCH_SIZE X no_of_channels x no_of_imgs x高さx幅{4次元入力}

入力形状はネットワークの精度にどのように影響しますか?

答えて

1

私は間違いなくあなたがセカンドセットアップを選択する助言をします。この場合、畳み込みアーキテクチャーを使用するときに、より良い学習に役立つさまざまな空間特性やスペクトル特性、および画像の不変性を利用することができます。最初に設定すると、空間情報とスペクトル情報の多くが失われます。 3番目には少し少なくなりますが、スペクトル情報が失われる可能性があり、学習プロセスに害を及ぼすことがあります。

+0

ビデオ分類も行う[C3Dバージョンのcaffe](https://github.com/facebook/C3D)を見てきました。しかし、3Dコンボルーションでは、入力batch_size x no_of_channels x no_of_imgs x高さx幅(4次元入力)が必要です。私はcaffeの通常のバージョンを使用するつもりです。私は5%の精度で1)アプローチを試みました。 –

+0

私もそれは大丈夫だろうと思う - おそらくフィルタはこのように設計され、それはうまく動作します:) –

+0

こんにちは私は[2ストリーム紙](http://arxiv.org/abs/1406.2199c )aginを見つけ、それらが実際にw×h×2Lの入力を与えることを見出した。ここで、Lはフレーム数である。しかし、一般的に、caffeはチャンネル* w * hの入力を受け入れます。そして、私は彼らが2Lをどのように積み上げているのかよくわからない。たとえば、すべてのRとBとG {R1、R2、... B1、B2 ... G1、G2 ....} B1、G1、R1、G2、B2 .....} ... –

関連する問題