sarsa

    2

    1答えて

    私はMountain Car Taskを解決するためにサットンの本で説明されたqを推定するエピソードセミグラジエントサルサを実装しようとしています。おおよそq私はneural networkを使いたいと思っています。したがって、私はthisコードを思いついた。しかし、残念なことに私の代理人は実際にその課題を解決することを学んでいません。いくつかのエピソードでは、ソリューションは非常に高速(100〜

    3

    1答えて

    私はOpenAIジムからFrozen Lake環境を解決するためにSarsaアルゴリズムを実装しようとしています。私はすぐにこれを使って作業を始めましたが、私はそれを理解していると思います。 私はまた、Sarsaアルゴリズムがどのように動作するか、擬似コードを見つけるためのサイトがたくさんあることを理解しています。私はこのアルゴリズムを私の問題のすべてのステップに沿って実装しましたが、すべてのエピ

    1

    1答えて

    私の研究のケースでは問題があります。 私はgridworldモデルの強化学習に興味があります。 モデルは動きのために7x7フィールドの迷路です。 フィールドの迷路を考えてみましょう。上、下、左、右(N、E、S、W)の4つの方向があります。したがって、ほとんどのポリシーがあります。壁に衝突する際に与えられる即時の罰を使用するときには、多くを除外することができます。 さらに、抑止の原理を用いると、通常