0
たとえば、タイムステップtのステートは、実際にtとt-1のステートで作成できますか?Proximal Policy Optimizationの状態に履歴が含まれていますか?
S_t = [s_t, s_t-1]
すなわちん近位ポリシーの最適化は、すでに状態履歴を組み込むか、それは州の暗黙の(またはどちらも)することができます。
たとえば、タイムステップtのステートは、実際にtとt-1のステートで作成できますか?Proximal Policy Optimizationの状態に履歴が含まれていますか?
S_t = [s_t, s_t-1]
すなわちん近位ポリシーの最適化は、すでに状態履歴を組み込むか、それは州の暗黙の(またはどちらも)することができます。
あなたの観測値を連結することができます。これは非常に一般的です。通常、アタリ領域では、最後の4つのフレームが1つの観測に結合されます。これにより、エージェントは環境の変化を理解することができます。
基本的なPPOアルゴリズムは、デフォルトで暗黙的に状態履歴を追跡しません。再現層を追加することでこれを可能にすることができます。
「フレームの最後が1つの観測に結合されている」と言うとき、その状態が4つのフレームすべてを別々に保持しているということですか?その場合、(最近の)履歴を保持するのは国家の責任であり、反復層を追加しなくても逃げることができますか? – Dirk
最後のフレームを1つのフレームに結合する処理を担当します。したがって、状態/観測をFIFOキューのように見えるように管理します。いくつかのケースでは、反復層がなくなることがあります。このことから、あなたのネットワークは、連結されたkフレームのみを使用することに制限されています。 LSTMレイヤでは、モデルは選択的に最も重要な機能を選択できます。 – BadProgrammer