2017-03-29 10 views
0

Tensorflowを使用してMNISTで機械学習を適用します。私はすべてのノードがTensorflowの分散実行を実行するクラスタでこれを行います。私はマスターノード上のbashスクリプトを使って個々の実行を実行します。このマスターノードは、sshを使用してクラスタからノードのセットに接続し、次にTensorflowを実行しているPythonスクリプトを実行します。分散Tensorflow実行を終了した後にメモリが不足する

Tensorflowがクラッシュにノードを引き起こし、私は多くの場合、次のエラーメッセージが表示されますノードで実行されている間は:

2017-03-29 20:34:02.749498: I tensorflow/core/distributed_runtime/rpc/grpc_server_lib.cc:239] Started server with target: grpc://localhost:8338 
Extracting /home/mvo010/.tmp/tensorflow/mnist/input_data/train-images-idx3-ubyte.gz 
Extracting /home/mvo010/.tmp/tensorflow/mnist/input_data/train-labels-idx1-ubyte.gz 
Extracting /home/mvo010/.tmp/tensorflow/mnist/input_data/t10k-images-idx3-ubyte.gz 
Extracting /home/mvo010/.tmp/tensorflow/mnist/input_data/t10k-labels-idx1-ubyte.gz 
Traceback (most recent call last): 
    File "/home/mvo010/inf3203-1/mnist_softmax.py", line 173, in <module> 
    tf.app.run(main=main, argv=[sys.argv[0]] + unparsed) 
    File "/share/apps/lib/python2.7/site-packages/tensorflow/python/platform/app.py", line 44, in run 
    _sys.exit(main(_sys.argv[:1] + flags_passthrough)) 
    File "/home/mvo010/inf3203-1/mnist_softmax.py", line 24, in main 
    mnist = input_data.read_data_sets(FLAGS.data_dir, one_hot=True) 
    File "/share/apps/lib/python2.7/site-packages/tensorflow/contrib/learn/python/learn/datasets/mnist.py", line 256, in read_data_sets 
    train = DataSet(train_images, train_labels, dtype=dtype, reshape=reshape) 
    File "/share/apps/lib/python2.7/site-packages/tensorflow/contrib/learn/python/learn/datasets/mnist.py", line 138, in __init__ 
    images = numpy.multiply(images, 1.0/255.0) 
MemoryError 

これは、メモリ不足です。ノードにログインしてメモリをチェックすると、空きメモリが本当に少ないことがわかります。問題は、ノードが完了したときにノード上のメモリーが解放されない(またはタイムアウトしたときにマスターbashスクリプトによって殺される)ことです。

Tensorflowアプリケーションを終了した後、ノードのメモリをクリーンアップする方法はありますか?私はsudo権限を持っていません。

答えて

0

セッションを終了しようとしましたか?私はそれがsess.close()だと信じています。

関連する問題