2017-09-02 11 views
0

VGG16を使用して基本転送学習コードを実行しようとしています。私はUbuntu 16.04、TensorFlow 1.3、Kerasを使用しています。私は4つの1080ti GPUを持っています。TensorFlow:cudnnハンドルを作成できませんでした:CUDNN_STATUS_INTERNAL_ERROR他のTFインスタンスは実行されていません。

私はこのコード行を取得:この

datagen = ImageDataGenerator(rescale=1./255) 
model = applications.VGG16(include_top=False, weights='imagenet') 

のnvidia-SMI番組の出力を:

Processes:              GPU Memory | 
| GPU  PID Type Process name         Usage 

| 0  14241 G /usr/lib/xorg/Xorg        256MiB | 
| 0  14884 G compiz           155MiB | 
| 0  16497 C /home/simon/anaconda3/bin/python    10267MiB | 
| 1  16497 C /home/simon/anaconda3/bin/python    10611MiB | 
| 2  16497 C /home/simon/anaconda3/bin/python    10611MiB | 
| 3  16497 C /home/simon/anaconda3/bin/python    10611MiB | 

+ ------------- -------------------------------------------------- -------------- +

、端末に出力

2017-09-02 15:59:15.946927: E tensorflow/stream_executor/cuda/cuda_dnn.cc:371] could not create cudnn handle: CUDNN_STATUS_INTERNAL_ERROR 
2017-09-02 15:59:15.946960: E tensorflow/stream_executor/cuda/cuda_dnn.cc:338] could not destroy cudnn handle: CUDNN_STATUS_BAD_PARAM 
2017-09-02 15:59:15.946973: F tensorflow/core/kernels/conv_ops.cc:672] Check failed: stream->parent()->GetConvolveAlgorithms(conv_parameters.ShouldIncludeWinogradNonfusedAlgo<T>(), &algorithms) 
であります

私のジュピターノートカーナーは死ぬ。

これは明らかにメモリの問題ですが、なぜ私のGPUがすべてこのコードによって取り上げられたのか理解できません。私は、この問題は過去24時間に始まったばかりで、このコードはすべて1日前に正常に動作していたと付け加えるべきです。ここで同様の問題に対する多くの答えがありますが、それらはすべてTF実行中の他のインスタンスを参照しています(それらをシャットダウンすることを推奨します)。私の場合、これは実行中の唯一のTFアプリケーション(または他のアプリケーション)です。

+1

16497はゾンビプロセスではないと確信していますか?再起動を試みましたか? –

+0

ロバート。私はゾンビのプロセスを探していて、誰もいません。これは本当に迷惑なことです。なぜなら、この問題に関連するSOに関するほとんどすべての答えが、ゾンビプロセスからのメモリ消費によって引き起こされたことを示唆しているからです。 – GhostRider

答えて

0

このチェックは、ShouldIncludeWinogradNonfusedAlgo()以外の理由で失敗する可能性があります。たとえば、cudnnSupportインスタンスの作成に失敗した場合、CHECKも失敗します。私はgithubの詳細な問題を投稿することをお勧めします。しかし、CUDAドライバを更新してからcudnnを再インストールすることが、最初に試すことができます。基本的に、CUDAとcudnn環境が最近変更されていないことを確認してください。また、可能であれば最小の再生装置が好ましい。ありがとうございました!

0

すべてのpythonプロセスを強制終了し、〜/ .nvフォルダを削除してもう一度実行してください。それは同じエラーを持って私のために働いた。

関連する問題