-2
Convolutional-RNNベースのネットワーク上でLSTMウェイトのバッチ正規化をhttps://arxiv.org/abs/1603.09025として試したところ、トレーニングのスピードとパフォーマンスが大幅に向上しました。 CNNから抽出された特徴は、双方向LSTMの2つの層に供給される。CRNNアーキテクチャのLSTMバッチ正規化
私の最初のネットワークでは、LSTMレイヤへの入力は128だったので、入力サイズを大きくすると(例えば256)、LSTM出力のNaNをいくつかの繰り返しバッチ正規化なしで正常に動作します)。私はこれが小数による分割に関連する可能性があることを理解しています。私も10^-6のイプシロンを使っていましたが、まだNaNを得ています。
NaNを取り除くために何ができるでしょうか?ありがとう。