2017-12-23 13 views
0

データがtfrecordファイルに保存されています。それは1000のサンプルと2つの機能を持っています(一方はもう一方の出力を入力します)。入力は形状[1,20]と出力[1,10]です。それらはどちらも平らな数字の配列から作成されました。私はそれらからバッチを作成しようとしているので、私はそれらを使ってネットワークをトレーニングすることができますが、どのように把握できません。テンソルフローのトレーニングネットワーク用のTFrecordからバッチを作成する方法は?

これはこれは私がからデータを取得していたファイルであるネットワーク

learning_rate = 0.01 
epochs = 2 
batch_size = 200 #total 5 batches 
dataSize = 1000 

dataset = rd.getData() 

x = tf.placeholder(shape=(None,20), dtype=tf.float32) 
y = tf.placeholder(shape=(None,10), dtype=tf.float32) 

w1 = tf.Variable(tf.random_normal([20, 20], stddev=0.03)) 
w2 = tf.Variable(tf.random_normal([20, 20], stddev=0.03)) 
w3 = tf.Variable(tf.random_normal([20, 20], stddev=0.03)) 
w4 = tf.Variable(tf.random_normal([20, 20], stddev=0.03)) 
w5 = tf.Variable(tf.random_normal([20, 10], stddev=0.03)) 

b1 = tf.Variable(tf.random_normal([20])) 
b2 = tf.Variable(tf.random_normal([20])) 
b3 = tf.Variable(tf.random_normal([20])) 
b4 = tf.Variable(tf.random_normal([20])) 
b5 = tf.Variable(tf.random_normal([10])) 

out1 = tf.add(tf.matmul(x, w1), b1) 
out1 = tf.tanh(out1) 

out2 = tf.add(tf.matmul(out1, w2), b2) 
out2 = tf.tanh(out2) 

out3 = tf.add(tf.matmul(out2, w3), b3) 
out3 = tf.tanh(out3) 

out4 = tf.add(tf.matmul(out3, w4), b4) 
out4 = tf.tanh(out4) 

out5 = tf.add(tf.matmul(out4, w5), b5) 
finalOut = tf.tanh(out5) 

cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(labels=y, logits=finalOut)) 


optimiser = tf.train.RMSPropOptimizer(learning_rate=learning_rate).minimize(cost) 

# finally setup the initialisation operator 
init_op = tf.global_variables_initializer() 


with tf.Session() as sess: 
    # initialise the variables 
    sess.run(init_op) 
    total_batch = int(dataSize/batch_size) 
    for epoch in range(epochs): 

    iterator = dataset.make_one_shot_iterator() 
    avg_cost = 0 

    for i in range(total_batch): 

     #create batch 
     batch_y = [] 
     batch_x = [] 
     for counter in range(0,batch_size): 
     uv, z = iterator.get_next() 
     batch_x.append(uv) 
     batch_y.append(z) 

     _, c = sess.run([optimiser, cost], 
        feed_dict={x: batch_x, y: batch_y}) 
     avg_cost += c/total_batch 
     print("Epoch:", (epoch + 1), "cost =", "{:.3f}".format(avg_cost)) 

を訓練するための私のコードです。

def decode(serialized_example): 

    features = tf.parse_single_example(
    serialized_example, 
    features={'uv': tf.FixedLenFeature([1,20], tf.float32), 
      'z': tf.FixedLenFeature([1,10], tf.float32)}) 

    return features['uv'], features['z'] 


def getData(): 

    filename = ["train.tfrecords"] 
    dataset = tf.data.TFRecordDataset(filename).map(decode) 
    return dataset 

エラー:

Traceback (most recent call last): 
File "network.py", line 102, in <module> 
feed_dict={x: batch_x, y: batch_y}) 
    File "C:\Users\User\AppData\Local\Programs\Python\Python36\lib\site-packages\tensorflow\python\client\session.py", line 889, in run 
run_metadata_ptr) 
    File "C:\Users\User\AppData\Local\Programs\Python\Python36\lib\site-packages\tensorflow\python\client\session.py", line 1089, in _run 
np_val = np.asarray(subfeed_val, dtype=subfeed_dtype) 
    File "C:\Users\User\AppData\Roaming\Python\Python36\site-packages\numpy\core\numeric.py", line 531, in asarray 
return array(a, dtype, copy=False, order=order) 
ValueError: setting an array element with a sequence. 

他の質問を見た後、私は多分、私のバッチがndarrayか何かする必要があります考えていましたか?私はそのフォームに自分のデータセットを取得する方法を理解できません。イテレータなしでデータを使用する方法については、わかりません。どんな指導もすばらしいでしょう!ありがとうございました

答えて

0

次のように試してみてください。

  1. tf.parse_single_exampleはバッチディメンションを受信しません。したがって、

    features = tf.parse_single_example(
        serialized_example, 
        features={'uv': tf.FixedLenFeature([20], tf.float32), 
         'z': tf.FixedLenFeature([10], tf.float32)}) 
    
  2. Simple Batching section of TensorFlow Guide on Dataset APIから、あなたはprint(sess.run(next_element))が3回実行されますが、next_elementは一度だけ宣言されていることがわかります。同様に、あなたのコードでは、forループの下でdataset.make_one_shot_iterator()iterator.get_next()を実行する必要はありません。データセットの宣言は、最初の部分に置くか、わかりやすくするためにgetData()の中に置くことができます。

  3. データのバッチを用いて形成することができます:forループでエポック・セットアップの例を見るために

    # read file 
    dataset = tf.data.TFRecordDataset(filename) 
    # parse each instance 
    dataset = dataset.map(your_parser_fun, num_parallel_calls=num_threads) 
    # preprocessing, e.g. scale to range [0, 1] 
    dataset = dataset.map(some_preprocessing_fun) 
    # shuffle 
    dataset = dataset.shuffle(buffer_size) 
    # form batch and epoch 
    dataset = dataset.batch(batch_size) 
    dataset = dataset.repeat(num_epoch) 
    iterator = dataset.make_one_shot_iterator() 
    # get a batch 
    x_batch, y_batch = self.iterator.get_next() 
    
    # do calculations 
    ... 
    
  4. チェックProcessing multiple epochs section

関連する問題