2017-11-14 12 views

答えて

1

あなたの観測値を連結することができます。これは非常に一般的です。通常、アタリ領域では、最後の4つのフレームが1つの観測に結合されます。これにより、エージェントは環境の変化を理解することができます。

基本的なPPOアルゴリズムは、デフォルトで暗黙的に状態履歴を追跡しません。再現層を追加することでこれを可能にすることができます。

+0

「フレームの最後が1つの観測に結合されている」と言うとき、その状態が4つのフレームすべてを別々に保持しているということですか?その場合、(最近の)履歴を保持するのは国家の責任であり、反復層を追加しなくても逃げることができますか? – Dirk

+0

最後のフレームを1つのフレームに結合する処理を担当します。したがって、状態/観測をFIFOキューのように見えるように管理します。いくつかのケースでは、反復層がなくなることがあります。このことから、あなたのネットワークは、連結されたkフレームのみを使用することに制限されています。 LSTMレイヤでは、モデルは選択的に最も重要な機能を選択できます。 – BadProgrammer

関連する問題