2017-04-07 15 views
3

1人のプレーヤーのゲームでは、Q値の更新はかなり直感的です。現在の状態と将来の状態は、単一のプレーヤーの戦略に依存しますが、2人のプレーヤーの場合はそうではありません。対戦相手が勝ち、ゲームが終了するシナリオを考えてみましょう。 Q値はどのように更新されますか?2人のプレーヤーのゲームでQ値を更新するには

答えて

1

一般的なアプローチの1つは、環境の一部として相手を考慮することです。そのため、状態には、相手の位置を言うように定義します。アクションを選択して実行し、状態を変更します。相手は自分の行動をとり、状態を再び修正する。あなたのエージェントは、前のアクションと相手の前のアクションの結果である状態プライムを受け取ります。

状態sにあなたがアクションa、その後、相手の行為を取り、ゲームを終了するように場合、あなたはa経由sから端末状態への遷移を記録します。

関連する問題