2017-04-12 5 views
4

モデルを保存した後に訓練を再開する際に問題があります。 問題は、私の損失が6から3のように減少することです。この時点でモデルを保存します。 それを復元してトレーニングを続けると、損失は6から再開します。 復元が実際には機能しないようです。 重量を印刷するので、正しく読み込まれているように見えます。 私はADAMオプティマイザを使用しています。前もって感謝します。ここで :テンソルフローの復元(再開訓練は最初から始まっているようです)

batch_size = self.batch_size 
    num_classes = self.num_classes 

    n_hidden = 50 #700 
    n_layers = 1 #3 
    truncated_backprop = self.seq_len 
    dropout = 0.3 
    learning_rate = 0.001 
    epochs = 200 

    with tf.name_scope('input'): 
     x = tf.placeholder(tf.float32, [batch_size, truncated_backprop], name='x') 
     y = tf.placeholder(tf.int32, [batch_size, truncated_backprop], name='y') 

    with tf.name_scope('weights'): 
     W = tf.Variable(np.random.rand(n_hidden, num_classes), dtype=tf.float32) 
     b = tf.Variable(np.random.rand(1, num_classes), dtype=tf.float32) 

    inputs_series = tf.split(x, truncated_backprop, 1) 
    labels_series = tf.unstack(y, axis=1) 

    with tf.name_scope('LSTM'): 
     cell = tf.contrib.rnn.BasicLSTMCell(n_hidden, state_is_tuple=True) 
     cell = tf.contrib.rnn.DropoutWrapper(cell, output_keep_prob=dropout) 
     cell = tf.contrib.rnn.MultiRNNCell([cell] * n_layers) 

    states_series, current_state = tf.contrib.rnn.static_rnn(cell, inputs_series, \ 
     dtype=tf.float32) 

    logits_series = [tf.matmul(state, W) + b for state in states_series] 
    prediction_series = [tf.nn.softmax(logits) for logits in logits_series] 

    losses = [tf.nn.sparse_softmax_cross_entropy_with_logits(logits=logits, labels=labels) \ 
     for logits, labels, in zip(logits_series, labels_series)] 
    total_loss = tf.reduce_mean(losses) 

    train_step = tf.train.AdamOptimizer(learning_rate).minimize(total_loss) 

    tf.summary.scalar('total_loss', total_loss) 
    summary_op = tf.summary.merge_all() 

    loss_list = [] 
    writer = tf.summary.FileWriter('tf_logs', graph=tf.get_default_graph()) 

    all_saver = tf.train.Saver() 

    with tf.Session() as sess: 
     #sess.run(tf.global_variables_initializer()) 
     tf.reset_default_graph() 
     saver = tf.train.import_meta_graph('./models/tf_models/rnn_model.meta') 
     saver.restore(sess, './models/tf_models/rnn_model') 

     for epoch_idx in range(epochs): 
      xx, yy = next(self.get_batch) 
      batch_count = len(self.D.chars) // batch_size // truncated_backprop 

      for batch_idx in range(batch_count): 
       batchX, batchY = next(self.get_batch) 

       summ, _total_loss, _train_step, _current_state, _prediction_series = sess.run(\ 
        [summary_op, total_loss, train_step, current_state, prediction_series], 
        feed_dict = { 
         x : batchX, 
         y : batchY 
        }) 

       loss_list.append(_total_loss) 
       writer.add_summary(summ, epoch_idx * batch_count + batch_idx) 
       if batch_idx % 5 == 0: 
        print('Step', batch_idx, 'Batch_loss', _total_loss) 

       if batch_idx % 50 == 0: 
        all_saver.save(sess, 'models/tf_models/rnn_model') 

      if epoch_idx % 5 == 0: 
       print('Epoch', epoch_idx, 'Last_loss', loss_list[-1]) 
+0

いいえ、重みは適切に復元されていますが、データはどうですか?それは同じですか? –

+0

@DanevskyiDmytro私のデータはバッチで入ってきます。バッチの検索順序はランダムですが、損失はすべてのデータセット(全エポック)で3に近くなりました。だから私は、損失を復元するときには、どのバッチでも3近くから再開すると思いますか? – JimZer

+0

データセットをいくつかのバッチに制限して、列車とテストを実行できますか? –

答えて

0

私の問題は、ラベルのコードエラーで、2つの実行の間で変更されました。 これは今すぐ動作します。 助けてくれてありがとう

1

私は同じ問題が、私の場合には、モデルが正しく復元されていたていたが、損失は何度も何度も本当に高い始めていた、問題は私のバッチretreivalがランダムではないということでした。私はA、B、Cの3つのクラスを持っていました。私のデータはこのようにA、B、Cの順で供給されていました。それがあなたの問題かどうかはわかりませんが、あなたのクラスのすべてのクラスは、バッチはバッチサイズ/ num_classesクラスごとに入力する必要があります。私はそれを変更し、すべてが完璧に働いた:)

あなたがモデルに正しく給餌しているかどうかチェックしてください。

+0

ヒントありがとうございますが、私のバッチは各エポックでランダムな順序でロードされています... – JimZer

関連する問題