Two-Stream Convolutional Networks for Action Recognition in Videosを再現したいですか?caffe lmdbに多次元データを入力する方法は?
しかし、それは私が壁にヒットしたように、マルチフレーム入力をCaffeに与えるようになったように感じます。
シングルフレームネットワークでは50%の精度が得られます。 しかし、私はLMDBを介して30 * 227 * 227の入力を与えます。 20(3つのチャンネルでそれぞれ10フレーム)。 accuracy barely reaches 4%。
これは、私がコーヒーに与えている入力が、必要な形式でないかモデルが間違っている(あまりあり得ない)と信じさせる。
私は3 x 10 x 227 x 227のスタイルで入力したいと思っています。 しかし、caffe LMDBは入力としてわずかな変数しかありません。すなわち、 高さ、幅、チャンネル、データ、ラベル。
私は3次元でしかデータを書き込むことができず、次に4番目のフレーム次元を取り上げることができません。
これを回避する人はいますか?
また、私は分類のためにマルチフレームデータを使用しているcaffeの例をどこから見つけることができるか知っていますか?
私が知る限り、Caffeはデータを扱うために4Dブロブを使用しているので、バッチ処理はできません。したがって、一度に1つのサンプルだけで動作します。また、これはフィルタの設計方法と、バッチとして一般的に使用される4次元のフレームの相関を処理できるかどうかによっても異なります。
これに関するアイデアはありますか?
P.s私もHDF5 similar resultsを試しました。
代わりにhdf5入力を試してください – Shai
同様に試してみてください。結果も添付 –
HDF5の結果を見ると、入力サイズは50x48x58x58です。それはこの質問に関連していますか?正確さは〜3%で始まりますが、その後は着実に上昇します。 – Shai