2017-08-31 13 views
1

私はKerasのMLPを使用して、一連の表データをバイナリ分類しています。 各データポイントには66個の機能があり、私は何百万というデータポイントを持っています。 大きなトレーニングセットを読むときのメモリ効率を向上させるために、私はfit_generatorを使い始めました。私のトレーニングデータ最初colomnでKeras Progress Barは、fit_generatorを使用するときにランダムなバッチ番号を生成します。

def generate_data_from_file(filename, feature_size, batch_size, usecols=None, delimiter=',', skiprows=0, dtype=np.float32): 
    while 1: 
     batch_counter = 0 
     if usecols is None: 
      usecols = range(1, feature_size+1) 
      x_batch = np.zeros([batch_size, feature_size]) 
      y_batch = np.zeros([batch_size, 1]) 
     else: 
      x_batch = np.zeros([batch_size, len(usecols)]) 
      y_batch = np.zeros([batch_size, 1]) 
     with open(filename, 'r') as train_file: 
      for line in train_file: 
        batch_counter += 1 
        line = line.rstrip().split(delimiter) 
        y = np.array([dtype(line[0])]) # Extracting labels from the first colomn 
        x = [dtype(line[k]) for k in usecols] # Extracting features 
        x = np.reshape(x, (-1, len(x))) 
        # stacking the data in batches 
        x_batch[batch_counter - 1] = x 
        y_batch[batch_counter - 1] = y 
        # Yield when having one batch ready. 
        if batch_counter == batch_size: 
         batch_counter = 0 
         yield (x_batch, y_batch) 

をラベルと残りは機能しているされています

batch_size = 1 
input_dim = 66 
train_size = 18240 
train_steps_per_epoch = int(train_size/batch_size) 
model.fit_generator(generate_data_from_file('train.csv', feature_size=input_dim, batch_size=batch_size), 
          steps_per_epoch=train_steps_per_epoch, nb_epoch=epochs, verbose=1) 

そして、ここでは私のジェネレータです:私は、ここでは簡単なテストコードを置きます。 fit_generatorが正しく理解されていれば、バッチでデータを積み重ねてそれらを生成する必要があります。 トレーニングは問題なく進行しますが、進捗バーにはランダムな進捗状況が表示され、混乱します。ここでは簡単のためにbatch_size = 1を使用しました。それが突然18240分の1から18240分の38にしてから18240分の72にというようにジャンプし、なぜ私は得ることはありません

1/18240 [..............................] - ETA: 1089s - loss: 0.7444 - binary_accuracy: 0.0000e+00 
    38/18240 [..............................] - ETA: 52s - loss: 0.6888 - binary_accuracy: 0.4211  
    72/18240 [..............................] - ETA: 42s - loss: 0.6757 - binary_accuracy: 0.6806 
    110/18240 [..............................] - ETA: 36s - loss: 0.6355 - binary_accuracy: 0.7455 
    148/18240 [..............................] - ETA: 33s - loss: 0.5971 - binary_accuracy: 0.7500 
    185/18240 [..............................] - ETA: 32s - loss: 0.4890 - binary_accuracy: 0.8000 
    217/18240 [..............................] - ETA: 31s - loss: 0.4816 - binary_accuracy: 0.8295 
    249/18240 [..............................] - ETA: 31s - loss: 0.4513 - binary_accuracy: 0.8474 
    285/18240 [..............................] - ETA: 30s - loss: 0.4042 - binary_accuracy: 0.8561 
    315/18240 [..............................] - ETA: 30s - loss: 0.3957 - binary_accuracy: 0.8381 

:結果は次のようなものです。より大きなバッチサイズを使用すると、同じ動作をします。 ジェネレータに何か問題がありますか?またはケラスの進捗バーがどのように動作していますか?あなたはthis Kerasで見ているよう

答えて

0

は実際には、最後のprogbar更新からの経過時間のどのくらいをチェックし、それが(here設定デフォルトである)秒の設定量よりも大きいです場合にのみ、それを印刷します。バッチ計算がこのマージンを下回った場合、progbarは更新されません。そのため、バッチ数の異なるジャンプがあります。

+0

ありがとうございます!これは、私がデバッガを使うときに私がそれらを正しく見る(遅い計算...)理由を説明します。 – user3428338

関連する問題