2017-03-20 12 views
0

私は画像分類ライブラリ用のスリムチュートリアルをたどり、imagenet TFRecordも作成しました。 training-a-model-from-scracthテンソルフロースリムを使ってゼロからモデルを訓練することはできません

は、コードの下に続く:

TRAIN_DIR=/home/ywlee/models/slim/results/ 
DATASET_DIR=/Data_ssd/ILSVRC2012/TFRecord/ 
python train_image_classifier.py \ 
    --train_dir=${TRAIN_DIR} \ 
    --dataset_name=imagenet \ 
    --dataset_split_name=train \ 
    --dataset_dir=${DATASET_DIR} \ 
    --model_name=inception_v3 

しかし、このエラーが発生します。

NotFoundError (see above for traceback): Key InceptionV3/Conv2d_3b_1x1/weights not found in checkpoint 
     [[Node: save/RestoreV2_51 = RestoreV2[dtypes=[DT_FLOAT], _device="/job:localhost/replica:0/task:0/cpu:0"](_recv_save/Const_0, save/RestoreV2_51/tensor_names, save/RestoreV2_51/shape_and_slices)]] 
     [[Node: save/RestoreV2_233/_1359 = _Recv[client_terminated=false, recv_device="/job:localhost/replica:0/task:0/gpu:0", send_device="/job:localhost/replica:0/task:0/cpu:0", send_device_incarnation=1, tensor_name="edge_576_save/RestoreV2_233", tensor_type=DT_FLOAT, _device="/job:localhost/replica:0/task:0/gpu:0"]()]] 

私は理解しています。チェックポイントを指定しないと、このプログラムは事前にトレーニングされた体重なしでトレーニングを受けます。 しかし、なぜこのエラーが発生するのかわかりません。

2つ目の質問は、私は完全クローン、レプリカ、パラメータサーバ(PS)と労働者の意味を理解し、tensorflowマルチGPUマニュアルとスリムの間で混乱することはできません、

です。

multi-gpuを使用して訓練する方法を教えてください。

答えて

0

TRAIN_DIR =/home/ywlee/models/slim/results /には、モデルがロードしようとしているチェックポイントが既に存在しているようです。 内部にチェックポイントがないクリーンディレクトリを使用してみてください。

0

追加--num_clones=nはmutli-gpuを使用できますが、そうでない場合はデフォルトで1つのgpuを使用します。

TRAIN_DIRをきれいにすると便利かもしれません。

+0

これは質問に対する回答ではありません。十分な[評判](https://stackoverflow.com/help/whats-reputation)があれば、[投稿にコメントする]ことができます(https://stackoverflow.com/help/privileges/comment)。代わりに、[質問者からの明確化を必要としない回答を提供する](https://meta.stackexchange.com/questions/214173/why-do-i-need-50-reputation-to-comment-what-c​​an- i-do-代わりに)。 - [レビューから](/レビュー/低品質の投稿/ 18093919) –

関連する問題