Proximal Policy Optimizationの状態に履歴が含まれていますか？

たとえば、タイムステップtのステートは、実際にtとt-1のステートで作成できますか？Proximal Policy Optimizationの状態に履歴が含まれていますか？

S_t = [s_t, s_t-1]

すなわちん近位ポリシーの最適化は、すでに状態履歴を組み込むか、それは州の暗黙の（またはどちらも）することができます。

出典

2017-11-14 Dirk

あなたの観測値を連結することができます。これは非常に一般的です。通常、アタリ領域では、最後の4つのフレームが1つの観測に結合されます。これにより、エージェントは環境の変化を理解することができます。

基本的なPPOアルゴリズムは、デフォルトで暗黙的に状態履歴を追跡しません。再現層を追加することでこれを可能にすることができます。

出典

2018-02-03 08:38:08 BadProgrammer

「フレームの最後が1つの観測に結合されている」と言うとき、その状態が4つのフレームすべてを別々に保持しているということですか？その場合、（最近の）履歴を保持するのは国家の責任であり、反復層を追加しなくても逃げることができますか？ – Dirk

最後のフレームを1つのフレームに結合する処理を担当します。したがって、状態/観測をFIFOキューのように見えるように管理します。いくつかのケースでは、反復層がなくなることがあります。このことから、あなたのネットワークは、連結されたkフレームのみを使用することに制限されています。 LSTMレイヤでは、モデルは選択的に最も重要な機能を選択できます。 – BadProgrammer

Proximal Policy Optimizationの状態に履歴が含まれていますか？

答えて

関連する問題