2017-06-04 21 views
0

https://google.github.io/seq2seq/のコードを使用して、seq2seq NMT(ニューラルマシン翻訳)をトレーニングしていました。トレーニングプロセスを中断した後、再起動したプロセスは超低速になります(1.2ステップ/秒から0.07ステップ/秒)。他の誰かがこの経験を持っていますか?どうすればデバッグできますか?私は、おかげ...本当にあきらめたくない、数週間のためにこれを実行している!〜Tensorflow SEQ2SEQトレーニングが突然遅い

通常のトレーニングの最後の行、

INFO:tensorflow:loss = 0.585205, step = 830853 (79.477 sec) 
INFO:tensorflow:global_step/sec: 1.24179 
INFO:tensorflow:loss = 0.267574, step = 830953 (80.529 sec) 

スーパースロートレーニングの最初の数行...

INFO:tensorflow:global_step/sec: 0.0746058 
INFO:tensorflow:loss = 0.554718, step = 830854 (1340.379 sec) 

答えて

0

ああ、ログを慎重に調べた結果、Cudaの最新のアップデート1個で問題が作成されたようです。ここにログがあります。

2017-06-02 22:47:22.684229: E tensorflow/stream_executor/cuda/cuda_driver.cc:405] failed call to cuInit: CUDA_ERROR_NO_DEVICE 
2017-06-02 22:47:22.684260: I tensorflow/stream_executor/cuda/cuda_diagnostics.cc:158] retrieving CUDA diagnostic information for host: POSingularity 
2017-06-02 22:47:22.684276: I tensorflow/stream_executor/cuda/cuda_diagnostics.cc:165] hostname: POSingularity 
2017-06-02 22:47:22.684305: I tensorflow/stream_executor/cuda/cuda_diagnostics.cc:189] libcuda reported version is: 375.66.0 
2017-06-02 22:47:22.684331: I tensorflow/stream_executor/cuda/cuda_diagnostics.cc:369] driver version file contents: """NVRM version: NVIDIA UNIX x86_64 Kernel Module 375.51 Wed Mar 22 10:26:12 PDT 
2017 
GCC version: gcc version 5.4.0 20160609 (Ubuntu 5.4.0-6ubuntu1~16.04.4) 
""" 
2017-06-02 22:47:22.684352: I tensorflow/stream_executor/cuda/cuda_diagnostics.cc:193] kernel reported version is: 375.51.0 
2017-06-02 22:47:22.684368: E tensorflow/stream_executor/cuda/cuda_diagnostics.cc:303] kernel version 375.51.0 does not match DSO version 375.66.0 -- cannot find working devices in this configuration