NaNの損失に達した後のチェックポイントの回復？

私はRNNを訓練していて、一晩中、損失関数がNaNに達しました。私は、これを解決するには学習率を下げることを読んでいます。私が持っている（唯一の）チェックポイントからトレーニングを再開しようとすると、より小さな学習率を使用しても、まだNaNが得られます。これは私のチェックポイントが修理を超えることを意味しますか？これを復旧する方法はありますか、それとも、tf.train.Saverを使用して、モデルのバージョンが保証されているかのように戻ってこないようにしてください。NaNの損失に達した後のチェックポイントの回復？

出典

2017-05-07 hate5six

学習率が問題だった場合、NaNが最初のエポックから多くの反復の後ではないことが予想されます。 –

チェックポイントにNaNという値がある場合、回復するためにできることはほとんどありません。あなたはNaNを何か他のものに置き換えることができると思いますが、それは原則ではありません。

おそらく、NaN値のない古いチェックポイントがあるかどうかを確認したいと思うかもしれません。 tf.train.Saverは、理由の正確この種のために、デフォルトで5つの以前のチェックポイントまで保持します。このことができます

https://www.tensorflow.org/api_docs/python/tf/train/Saver

願っています！

出典

2017-05-12 14:15:19

NaNの損失に達した後のチェックポイントの回復？

答えて

関連する問題