2

私は現在、Sutton & Bartoから「強化学習」を読んでいます。私はいくつかの方法を自分自身で書こうとしています。Open AI Gymでポリシー反復メソッドを実装する

ポリシーの繰り返しは、私が現在取り組んでいるものです。私は、カートポールや連続マウンテンカーなどの簡単な問題でOpenAI Gymを使用しようとしています。

しかし、ポリシーの反復では、状態と報酬行列の間の遷移行列の両方が必要です。

OpenAIジムで構築した「環境」から入手できますか?

私はPythonを使用しています。

これらの値を計算して環境を使用するにはどうすればよいですか?

答えて

1

いいえ、OpenAIジム環境では、そのフォームの情報は提供されません。その情報を収集するには、サンプリングを介して環境を探索する必要があります。つまり、行動を選択し、観測や報酬を受け取る必要があります。これらのサンプルを使用すると、それらを見積もることができます

これらの値を近似するための基本的な方法の1つは、LSPI(最小二乗方針のポリシー反復)を使用することです。これについては、Suttonでも詳しく説明しています。

関連する問題