2017-09-15 13 views
0

CNNをトレーニングしています。今週3回、次のエラーが表示されます。それらはすべて長期間に渡って現れます(例:419140ステップ)。ここでテンポラルフローでは、長時間実行した後にCUDA_ERROR_LAUNCH_FAILEDを返します。

は、部分ログある:

2017年9月15日11:16:03.515396:ステップ419120、損失= 0.30(4427.4 例/秒、0.029秒/バッチ)2017年9月15日11,16:03.766922:ステップ 419130、損失= 0.38(5089.0サンプル/秒; 0.025秒/バッチ)2017-09-15 11:16:04.073978:ステップ419140、損失= 0.40(4168.5サンプル/秒、0.031 のエラーポーリングイベントステータス:イベントの照会に失敗しました:CUDA_ERROR_LAUNCH_FAILED 2017-09-15 20:48:03.734101:E テンソルフロー/ストリームキュー/ cuda/cuda_event.cc:49] 48:03.734133:F tensorflow /コア/ common_runtime/GPU/gpu_event_mgr.cc:203]予期しない イベント状況:私はトレーニングを再開した場合は1

、tensorflowは、GPUを利用しませんが、ここでは関係ログがあります:

2017年9月15日21:54:38.681074:E tensorflow/stream_executor/CUDA/cuda_driver.cc:406] cuInitへの呼び出しに失敗しました:CUDA_ERROR_UNKNOWNを

GPUのWORを作るためにkをもう一度押すと、コンピュータを再起動する必要があります。

エラーがC++ファイルで発生しているように見えますが、これはよく知られていません。このエラーをデバッグする方法や回避する方法についてアドバイスをいただけますか?

答えて

0

もう一度エラーが発生しました。私はメッセージがあると気づいた今回は:コアダンプ、私はメッセージを保存することを忘れました。私の経験から、プログラム(またはPythonやOS)は分析のためにいくつかのダンプ/ログファイルを保存しなければなりません。私はそれを見つけることができる任意の手がかり?

この原因が見つかりました。このエラーは、コンピュータをSuspend(S3)にしたときに発生し、S3からコンピュータが再開したときにこのエラーが発生します。多分CUDAドライバはまだLinux上でS3をサポートしていないでしょう。私は時間があるときに、NVIDIAの公式サイトでより深く掘り下げます。

関連する問題