2017-04-18 16 views
1

これは既に他の場所で報告されている場合、私はかなりの時間を、成功なしで探しています。Keras + tensorflow + P100:cudaErrorNotSupported = 71エラー

 
Using TensorFlow backend. 
I tensorflow/stream_executor/dso_loader.cc:135] successfully opened CUDA library libcublas.so.8.0 locally 
I tensorflow/stream_executor/dso_loader.cc:135] successfully opened CUDA library libcudnn.so.5 locally 
I tensorflow/stream_executor/dso_loader.cc:135] successfully opened CUDA library libcufft.so.8.0 locally 
I tensorflow/stream_executor/dso_loader.cc:135] successfully opened CUDA library libcuda.so.1 locally 
I tensorflow/stream_executor/dso_loader.cc:135] successfully opened CUDA library libcurand.so.8.0 locally 
I tensorflow/core/common_runtime/gpu/gpu_device.cc:885] Found device 0 with properties: 
name: Tesla P100-PCIE-16GB 
major: 6 minor: 0 memoryClockRate (GHz) 1.3285 
pciBusID 0000:02:00.0 
Total memory: 15.89GiB 
Free memory: 15.51GiB 
I tensorflow/core/common_runtime/gpu/gpu_device.cc:906] DMA: 0 
I tensorflow/core/common_runtime/gpu/gpu_device.cc:916] 0: Y 
I tensorflow/core/common_runtime/gpu/gpu_device.cc:975] Creating TensorFlow device (/gpu:0) -> (device: 0, name: Tesla P100-PCIE-16GB, pci bus id: 0000:02:00.0) 
F tensorflow/core/common_runtime/gpu/gpu_device.cc:121] Check failed: err == cudaSuccess (71 vs. 0) 
srun: error: nid02011: task 0: Aborted 
srun: Terminating job step 1262138.0 

我々が使用しているkeras 2.0:keras + tensorflow P100 GPGPUを使って(githubの/fchollet/keras/blob/master/examples/mnist_cnn.pyで利用可能)簡単なmnist例を実行している間

は、我々はkeras/tensorflow/CUDAの交差点で問題が発生しました.2、テンソルフロー1.0.0。クーダ8.0.53。 私たちは、これはの交差点に実際にあることを考えるように私たちを導くれ、罰金うとしているベアtensorflow RUNTEST

(... 1.2および2.0をkeras)の両方python2.7.12とpython3.5.2でこの問題を持っているように見えますケラス/テンソルフロー/クーダ。

TitanX GPGPUと同じバージョンのソフトウェアで、同じテストがさまざまなマシンで正常に動作します。

は、私は、この問題を解決するために、次の見える場所に関する無知だtensorflow line 121

CUDA error types

 
cudaErrorNotSupported = 71 
This error indicates the attempted operation is not supported on the current system or device. 

にこのバックをトレースしているように見えます。私はこの問題に関するフィードバックや指導に感謝します。

+2

https://github.com/tensorflow/tensorflow/issues/9080 - あなたはCUDA MPSがインストールされたシステムで走っていますか?もしそれが問題の可能性があります – talonmies

+0

私はstackorverflowに行く前に答えを探し始めると、これは非常に関連性があり、ポスト日付であることが分かります。 – vlimant

答えて

0

ここでの問題の根源は、TensorflowとCUDA MPSサービスとの間に互換性がないようです(関連するTensorflowトラッカーの問題hereを参照)。 GPUデバイスへのアクセスの細かさを向上させるために、MPSサービスを使用するクラスタや大規模なシステムにのみ効果があります。

これはおそらく、NVIDIAとTensorflow開発チームのバグとして提起されるべきです。

[この答えは、コメントから組み立ておよびCUDAタグの未回答のリストをそれを得るためにコミュニティのwikiのエントリとして追加されました]

関連する問題