2017-02-25 15 views
-1

メモリエラー。次回再起動すると消えてしまいます。 私とあなたの専門知識を共有してくれてありがとう。私は本当にこの問題を解決する方法を知りません。あなたがこの問題を取得することができる多くの理由がありますCUDA_ERROR_OUT_OF_MEMORYのUbuntuの14.04 cuda8

 I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:910] 
     successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero 
     I tensorflow/core/common_runtime/gpu/gpu_device.cc:885]     
     Found device 0 with properties: 
     name: GeForce GT 740M 
     major: 3 minor: 5 memoryClockRate (GHz) 1.0325 
     pciBusID 0000:01:00.0 
     Total memory: 1.96GiB 
     Free memory: 118.75MiB 
     I tensorflow/core/common_runtime/gpu/gpu_device.cc:906] DMA: 0 
     I tensorflow/core/common_runtime/gpu/gpu_device.cc:916] 0: Y 
     I tensorflow/core/common_runtime/gpu/gpu_device.cc:975]   
     Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce GT 740M, pci bus id: 0000:01:00.0) 
     E tensorflow/stream_executor/cuda/cuda_driver.cc:1002] failed to allocate 118.75M (124518400 bytes) from device: CUDA_ERROR_OUT_OF_MEMORY 
     E tensorflow/stream_executor/cuda/cuda_dnn.cc:397] could not create cudnn handle: CUDNN_STATUS_INTERNAL_ERROR 
     E tensorflow/stream_executor/cuda/cuda_dnn.cc:364] could not destroy cudnn handle: CUDNN_STATUS_BAD_PARAM 
     F tensorflow/core/kernels/conv_ops.cc:605] Check failed: stream->parent()->GetConvolveAlgorithms(&algorithms) 
     Aborted (core dumped) 
+0

コードを見ることなく、不可能です。確かにそれはあなたがリソースを解放していないように聞こえ、メモリリークを引き起こします(もう一つの選択肢はメモリグラディエイションです)。これらはGPU上で見つけてやるのが痛いので、物事を面白くするだけです。すべてのメモリ割り当てを追跡し、それらが整理されていることを確認するか、問題がなくなるまでコードの断片を削除する必要があります。 – Basic

答えて

0

:ここ

はエラーメッセージです。

  • GPUを使用しているかどうかをチェックして、Xサーバーも起動時にクラッシュしたために実行してください。 nvidia-smiを調べて、実際にどのくらいのスペースを使って作業しているか確認してください。
  • 実行中のテンソルフローの適切なCUDAドライバとツールキットバージョン(367.35以降およびツールキット8.0)
  • カードがサポートされていますか? (これはうまくいくはずだが、nvidiaは、新しいNVIDIA GPUを購入する方法として、古いハードウェアをサポートすることについて卑劣なことを好む。)あなたのカードをダブルチェックした後、サポートされています。 CUDAの計算が必要です。> 3.0
  • テンソルフローデバッガでコードをデバッグできます。
  • 最後に、あなたのソフトウェアが終了した後、あなたのGPUリソ​​ースが解放されていないように思われることを示唆しています。プログラムがexit()を呼び出した後、GPUがリソースを解放するので、プロセスを強制終了してください。