私はリカレントニューラルネットワーク(RNN)にメモリを持たせる必要性と、隠されたニューロンの出力を戻すことによってどのようにこれを得るのか理解しています。しかし、なぜ彼らはちょうど入力を保存することはできません;すなわち、一連の入力だけを遅延してフィードバックし、それらの入力の関数である隠れたニューロンではなく、をコンテキストとして使用しますか?なぜリカレントニューラルネットワークはすべての隠れニューロンをループするのですか?
これは隠れ状態全体を戻す(すなわちBPTTの困難)という問題を多く解決したように思われますが、それでもすべてのコンテキストを保持します。定義によると、入力にはコンテキストを計算するために必要なデータがあります。
単一の隠れ層のニューロンがx(t-1) x(t-2)...
入力の機能となるため、コンテキストが入力自体ではなく入力自体の関数であっても、これを使用することはできます。したがって、標準のRNNで計算できるものはまだ計算できますが、複雑さはあまりありません。一部のニューロンはx(t)
に、また一部はx(t-n)
に特化します。
今、誰もこれをやっていないので、私は彼らがそれを考慮して拒否したと想像しなければなりません。どうして?