-2

Convolutional-RNNベースのネットワーク上でLSTMウェイトのバッチ正規化をhttps://arxiv.org/abs/1603.09025として試したところ、トレーニングのスピードとパフォーマンスが大幅に向上しました。 CNNから抽出された特徴は、双方向LSTMの2つの層に供給される。CRNNアーキテクチャのLSTMバッチ正規化

私の最初のネットワークでは、LSTMレイヤへの入力は128だったので、入力サイズを大きくすると(例えば256)、LSTM出力のNaNをいくつかの繰り返しバッチ正規化なしで正常に動作します)。私はこれが小数による分割に関連する可能性があることを理解しています。私も10^-6のイプシロンを使っていましたが、まだNaNを得ています。

NaNを取り除くために何ができるでしょうか?ありがとう。

答えて

0

同じ問題を抱えている人は、float32の代わりにfloat64データ型を使用すると、この問題の解決に役立ちます。もちろんこれには記憶の意味がありますが、これまでの唯一の解決策であることがわかりました。

関連する問題