2016-07-25 16 views
1

私は現在、花の再トレーニングの例(https://www.tensorflow.org/versions/r0.9/how_tos/image_retraining/index.html)で奇妙なバグに直面しています。Inception v3 retraining error(花の例)

Tensorflowリリース0.9のソースからインストールされ、私は(それが起動し、作成し、いくつかのボトルネックを が、その後、次のエラーメッセージが表示されない)image_retrainingのPythonスクリプトを実行しようとしました。

誰でも問題がどのようなものか考えてもらえますか?私はこれに似た投稿を見つけられませんでした。

E tensorflow/core/kernels/check_numerics_op.cc:157] abnormal_detected_host @0x10007200300 = {1, 0} activation input is not finite. 
Traceback (most recent call last): 
    File "examples/image_retraining/retrain.py", line 888, in <module> 
    tf.app.run() 
    File "/usr/local/lib/python2.7/dist-packages/tensorflow/python/platform/app.py", line 30, in run 
    sys.exit(main(sys.argv)) 
    File "examples/image_retraining/retrain.py", line 798, in main 
    jpeg_data_tensor, bottleneck_tensor) 
    File "examples/image_retraining/retrain.py", line 456, in cache_bottlenecks 
    jpeg_data_tensor, bottleneck_tensor) 
    File "examples/image_retraining/retrain.py", line 414, in get_or_create_bottleneck 
    bottleneck_tensor) 
    File "examples/image_retraining/retrain.py", line 331, in run_bottleneck_on_image 
    {image_data_tensor: image_data}) 
    File "/usr/local/lib/python2.7/dist-packages/tensorflow/python/client/session.py", line 382, in run 
    run_metadata_ptr) 
    File "/usr/local/lib/python2.7/dist-packages/tensorflow/python/client/session.py", line 655, in _run 
    feed_dict_string, options, run_metadata) 
    File "/usr/local/lib/python2.7/dist-packages/tensorflow/python/client/session.py", line 723, in _do_run 
    target_list, options, run_metadata) 
    File "/usr/local/lib/python2.7/dist-packages/tensorflow/python/client/session.py", line 743, in _do_call 
    raise type(e)(node_def, op, message) 
tensorflow.python.framework.errors.InvalidArgumentError: activation input is not finite. : Tensor had NaN values 
     [[Node: conv_1/CheckNumerics = CheckNumerics[T=DT_FLOAT, message="activation input is not finite.", _device="/job:localhost/replica:0/task:0/gpu:0"](conv_1/batchnorm)]] 
Caused by op u'conv_1/CheckNumerics', defined at: 
    File "examples/image_retraining/retrain.py", line 888, in <module> 
    tf.app.run() 
    File "/usr/local/lib/python2.7/dist-packages/tensorflow/python/platform/app.py", line 30, in run 
    sys.exit(main(sys.argv)) 
    File "examples/image_retraining/retrain.py", line 769, in main 
    create_inception_graph()) 
    File "examples/image_retraining/retrain.py", line 312, in create_inception_graph 
    RESIZED_INPUT_TENSOR_NAME])) 
    File "/usr/local/lib/python2.7/dist-packages/tensorflow/python/framework/importer.py", line 274, in import_graph_def 
    op_def=op_def) 
    File "/usr/local/lib/python2.7/dist-packages/tensorflow/python/framework/ops.py", line 2297, in create_op 
    original_op=self._default_original_op, op_def=op_def) 
    File "/usr/local/lib/python2.7/dist-packages/tensorflow/python/framework/ops.py", line 1231, in __init__ 
    self._traceback = _extract_stack() 
+0

これに関連する問題があります:https://github.com/tensorflow/tensorflow/issues/2164 –

答えて

1

これは私も(私はUbuntuの14.04で2倍GTX 1080を使用しています)が発生していることをTensorFlowのバグです

1つのオプションは、クーダ8.0をインストールすることです。ただし、Cuda 8.0は完全にサポートされていないため、他の問題が発生する可能性があります。

ちょうど実験している場合は、少なくともボトルネックの生成フェーズでは、CPUだけでビルドして実行することもできます。あなたはGPUのサポートとTensorFlow構築されてきた場合

bazel build -c opt --copt=-mavx tensorflow/examples/image_retraining:retrain 
bazel-bin/tensorflow/examples/image_retraining/retrain --image_dir ~/flower_photos 

あなたはおそらく知っているように、これを実行します。

python tensorflow/examples/image_retraining/retrain.py --image_dir ~/flower_photos 

それはGPUのサポートで実行されますし、あなたはおそらく同じエラーをヒットします。

私はここでの問題を開設しました: https://github.com/tensorflow/tensorflow/issues/3560

彼らはそれを修正するまで、回避策は、限り、あなたはのために分類するカテゴリの多数を持っていないと動作します。

+0

ありがとうございます、それは同じ問題があるようです。おそらく、Cuda 8.0 – Nadja

+0

への切り替えをお試しください! Cuda 8.0はリリース候補ですので、可能であればCuda 7.5のセットアップをバックアップします。 – telemark

関連する問題