LSTMでアンロールの回数、つまりトレーニングまたは予測中に一度に考慮するタイムステップの数が非常に重要になる理由はわかりません。アンロール/タイムステップの数が1か100かどうかにかかわらず、LSTM状態は、各タイムステップで突然変異する。これは、通常のフィードフォワードニューラルネットの確率的勾配降下とミニバッチ勾配降下の違いと同じですか?LSTMで使用されるアンローリングの数は重要ですか?
10万の発注例があるとします。一度に1つの例を順番に訓練することができます。
予測時間に、たとえば10語の「文」があり、11番目の単語を予測したいとします。展開されたネットワークでLSTMに10単語を一度にフィードするか、LSTMを一度に1単語ずつフィードしてから、10ワード後の予測を観察できます。私は、異なる長さの文の次の単語を予測しようとすると、一度に一例のネットワークが問題になると思われます(理想的には、異なる文の予測の間にSHORT-termメモリをリセットするためです)。私はこれに非常に曇っており、回答者からの洞察を高く評価します。
したがって、n> 1のアンロールの利点は、複数のタイムステップによるエラー伝播です。バックプロパゲーションアップデートはバニラフィードフォワードネットワークでは理解しやすいです。更新される表現のヒエシィがあります。 LSTMの更新はわかりにくいです...それは時間的な階層であり、元のLSTMの論文を読んで、何が更新されたのか、そして時間的パターンが何らかの形で保存されているかどうかを確認する必要があります。 – foghorn
はい、アンロールすることなく、1ステップで更新する「同期」の問題で問題が発生した場合、同じネットワークパラメータがなくなり、**以前の**データポイントのすべての内部アクティベーションを再計算する必要があります現在のタイムステップからエラーをバックプロンプトすることができます。 – lejlot