2017-07-29 3 views
2

私はMountain Car Taskを解決するためにサットンの本で説明されたqを推定するエピソードセミグラジエントサルサを実装しようとしています。おおよそq私はneural networkを使いたいと思っています。したがって、私はthisコードを思いついた。しかし、残念なことに私の代理人は実際にその課題を解決することを学んでいません。いくつかのエピソードでは、ソリューションは非常に高速(100〜200ステップ)であることがわかりますが、エージェントが30kステップ以上を必要とすることもあります。私は私の実装でいくつかの基本的な間違いを犯したと思いますが、私はそれを自分で見つけることができません。誰かが私を助け、私の実装でエラー/間違いを指摘できますか?サルサはニューラルネットワークを使ってマウンテンカータスクを解決します

は私がネットワークの構造を変更することでこの問題を解決し

答えて

1

:代わりのそれのQ-valueを予測する(state, action)ペアを使用して、私は道DQNでそれを変更しそれをしない:私は3つのすべての可能なアクションのvalue予測この予測に従って行動を選択します。以前のアプローチでは問題を見つけることができませんでしたが、少なくともこれは現在機能しています。

関連する問題