エポック以上のレイヤーを使用する場合のトレーニングの違いは何ですか?エポック以上のレイヤーはありますか?
一貫したハイパーパラメータを仮定して、これらの列車が等しくなければなりませんか?
for epoch in range(20):
LSTM
と
for epoch in range(5):
LSTM -> LSTM -> LSTM -> LSTM
私はトレーニングの後に違いがあるだろうことを理解しています。最初のケースでは、トレーニングされた1つのLSTMセルにテストバッチを送信し、2番目のケースではトレーニングセルを4つ通過させます。私の質問はトレーニングに関係しています。
これらは同一である必要があります。
なぜ同じであるべきですか? – Maxim
ケース1の場合、出力状態は次のエポックに渡されません。ケース2の場合、出力状態は3回続きますか?両方の場合に出力状態が渡されます。 – GAEfan
はい。また、最初のレイヤーは生の入力を受け取り、深いレイヤーは以前のLSTMセルの隠れた状態を受け取ります – Maxim