私は現在、Sutton & Bartoから「強化学習」を読んでいます。私はいくつかの方法を自分自身で書こうとしています。Open AI Gymでポリシー反復メソッドを実装する
ポリシーの繰り返しは、私が現在取り組んでいるものです。私は、カートポールや連続マウンテンカーなどの簡単な問題でOpenAI Gymを使用しようとしています。
しかし、ポリシーの反復では、状態と報酬行列の間の遷移行列の両方が必要です。
OpenAIジムで構築した「環境」から入手できますか?
私はPythonを使用しています。
これらの値を計算して環境を使用するにはどうすればよいですか?