VGG16を使用して基本転送学習コードを実行しようとしています。私はUbuntu 16.04、TensorFlow 1.3、Kerasを使用しています。私は4つの1080ti GPUを持っています。TensorFlow:cudnnハンドルを作成できませんでした:CUDNN_STATUS_INTERNAL_ERROR他のTFインスタンスは実行されていません。
私はこのコード行を取得:この
datagen = ImageDataGenerator(rescale=1./255)
model = applications.VGG16(include_top=False, weights='imagenet')
のnvidia-SMI番組の出力を:
Processes: GPU Memory |
| GPU PID Type Process name Usage
| 0 14241 G /usr/lib/xorg/Xorg 256MiB |
| 0 14884 G compiz 155MiB |
| 0 16497 C /home/simon/anaconda3/bin/python 10267MiB |
| 1 16497 C /home/simon/anaconda3/bin/python 10611MiB |
| 2 16497 C /home/simon/anaconda3/bin/python 10611MiB |
| 3 16497 C /home/simon/anaconda3/bin/python 10611MiB |
+ ------------- -------------------------------------------------- -------------- +
、端末に出力
2017-09-02 15:59:15.946927: E tensorflow/stream_executor/cuda/cuda_dnn.cc:371] could not create cudnn handle: CUDNN_STATUS_INTERNAL_ERROR
2017-09-02 15:59:15.946960: E tensorflow/stream_executor/cuda/cuda_dnn.cc:338] could not destroy cudnn handle: CUDNN_STATUS_BAD_PARAM
2017-09-02 15:59:15.946973: F tensorflow/core/kernels/conv_ops.cc:672] Check failed: stream->parent()->GetConvolveAlgorithms(conv_parameters.ShouldIncludeWinogradNonfusedAlgo<T>(), &algorithms)
であります
私のジュピターノートカーナーは死ぬ。
これは明らかにメモリの問題ですが、なぜ私のGPUがすべてこのコードによって取り上げられたのか理解できません。私は、この問題は過去24時間に始まったばかりで、このコードはすべて1日前に正常に動作していたと付け加えるべきです。ここで同様の問題に対する多くの答えがありますが、それらはすべてTF実行中の他のインスタンスを参照しています(それらをシャットダウンすることを推奨します)。私の場合、これは実行中の唯一のTFアプリケーション(または他のアプリケーション)です。
16497はゾンビプロセスではないと確信していますか?再起動を試みましたか? –
ロバート。私はゾンビのプロセスを探していて、誰もいません。これは本当に迷惑なことです。なぜなら、この問題に関連するSOに関するほとんどすべての答えが、ゾンビプロセスからのメモリ消費によって引き起こされたことを示唆しているからです。 – GhostRider