なぜLayerNormBasicLSTMCellはLSTMCellよりもはるかに遅く正確さが劣るのですか？

私は最近、LayerNormBasicLSTMCellがLayer Normalizationとドロップアウトが実装されたLSTMのバージョンであることを発見しました。したがって、元のコードをLSTMCellをLayerNormBasicLSTMCellに置き換えました。この変更により、96％から〜92％までのテスト精度が低下しただけでなく、訓練に長時間（約33時間）かかる（元の訓練時間は約6時間）。エポックの数（10）、スタックされたレイヤの数（3）、隠れたベクトルサイズ（250）の数、ドロップアウトの保持の問題（0.5）、...すべてのパラメータは同じです。なぜLayerNormBasicLSTMCellはLSTMCellよりもはるかに遅く正確さが劣るのですか？

私の質問は次のとおりです。私はここで間違っていましたか？（LSTMCellを使用して）

私のオリジナルモデル：

# Batch normalization of the raw input 
tf_b_VCCs_AMs_BN1 = tf.layers.batch_normalization(
    tf_b_VCCs_AMs, # the input vector, size [#batches, #time_steps, 2] 
    axis=-1, # axis that should be normalized 
    training=Flg_training, # Flg_training = True during training, and False during test 
    trainable=True, 
    name="Inputs_BN" 
    ) 

# Bidirectional dynamic stacked LSTM 

##### The part I changed in the new model (start) ##### 
dropcells = [] 
for iiLyr in range(3): 
    cell_iiLyr = tf.nn.rnn_cell.LSTMCell(num_units=250, state_is_tuple=True) 
    dropcells.append(tf.nn.rnn_cell.DropoutWrapper(cell=cell_iiLyr, output_keep_prob=0.5)) 
##### The part I changed in the new model (end) ##### 

MultiLyr_cell = tf.nn.rnn_cell.MultiRNNCell(cells=dropcells, state_is_tuple=True) 

outputs, states = tf.nn.bidirectional_dynamic_rnn(
    cell_fw=MultiLyr_cell, 
    cell_bw=MultiLyr_cell, 
    dtype=tf.float32, 
    sequence_length=tf_b_lens, # the actual lengths of the input sequences (tf_b_VCCs_AMs_BN1) 
    inputs=tf_b_VCCs_AMs_BN1, 
    scope = "BiLSTM" 
    )

（LayerNormBasicLSTMCellを使用して）私の新しいモデル：

... 
dropcells = [] 
for iiLyr in range(3): 
    cell_iiLyr = tf.contrib.rnn.LayerNormBasicLSTMCell(
     num_units=250, 
     forget_bias=1.0, 
     activation=tf.tanh, 
     layer_norm=True, 
     norm_gain=1.0, 
     norm_shift=0.0, 
     dropout_keep_prob=0.5 
     ) 
    dropcells.append(cell_iiLyr) 
...

出典

2017-07-17 Maosi Chen

考え：[https://stackoverflow.com/questions/43234667/tf-layers-batch-normalization-large-test-error](this）が問題になりますか？平均と分散が 'tf.layers.batch_normalization'で自動的に更新されないようです。 'tf.contrib.rnn.LayerNormBasicLSTMCell'に同じ問題があるのだろうかと思います。 –

@FariborzGhavamian、正規化関数（つまり、 'update_ops = tf.get_collection（tf.GraphKeys.UPDATE_OPS）'と 'tf.control_dependencies（update_ops）：' ...）の両方に2番目の方法を使用しました。 –

トレーニング時間について：私はtensorflowのウェブサイトでこれを見つけました：https://www.tensorflow.org/performance/performance_guide#common_fused_ops。 'fused'というパラメータを有効にして、12％-30％の速度を上げることができます。 –

トレーニング時間について：私はこのブログの記事に出くわした：http://olavnymoen.com/2016/07/07/rnn-batch-normalization。最後の図を参照してください。バッチ標準化された1stmは、バニラ1stmよりも3倍以上遅かった。作者は、その理由はバッチ統計計算であると主張している。

精度について：わかりません。

出典

2017-12-22 08:23:10

私は非常に慎重に投稿を読んでいない、私はポストは、層の正規化（問題の1つではなく）バッチ正規化について話していると思いますか？ –

はい、投稿はバッチの正規化に関するものです。しかし、それと層の正規化との間の共通の根拠は、統計（平均値と分散）の計算です。統計は異なるデータ（BN：バッチオーバー、LN：レイヤー）に基づいて計算されているが、それにもかかわらず追加の計算コストがかかるようだ。 –

統計情報（平均値または分散値）の計算にそれほどの時間がかかる理由（特にGPUの場合）はなぜわかりません。 –

dropout_keep_probには、定数値の代わりにプレースホルダを割り当てる必要があります。トレーニングでは0.5、推論では1.0を割り当ててみてください。ちょうど推測。

出典

2018-02-27 02:07:31 carusyte

なぜLayerNormBasicLSTMCellはLSTMCellよりもはるかに遅く正確さが劣るのですか？

答えて

関連する問題