Chromeの恐竜ゲーム(オフライン時に再生できるゲーム)のQ-Learningを実装したいと思います。強化学習における同じ状態の報酬が異なる
私は自分の状態を次の障害物までの距離、速度、次の障害物の大きさと定義しました。
報酬としては、成功した障害物の数を使いたいと思っていましたが、同じ州で異なる即時報酬が発生する可能性があります。同じタイプの障害物がゲームの後半に再び出現する可能性がありますが、すでに障害物が通過しているため、それを渡す報酬は高くなります。
私の質問は今です:これは問題ですか、Q-Learningはまだ動作しますか?より良い方法がない場合は?
私は死のために大きな負の報酬を持つ報酬制度を提案したいと思います。そして、スコアが増加するたびに肯定的な報酬(おそらくスコアの増分に等しい)。私はQラーニングの問題を見ません - 私はバニラQラーニングを使って素晴らしいパックマンエージェントを見ました。恐竜ゲームは問題ではありません。 –