標準の7 * 6ボードを考えてみましょう。 Q-Learningアルゴリズムを適用したいとします。それを適用するには、すべての可能な状態とアクションのセットが必要です。 3 ^(7 * 6)= 150094635296999121が存在する可能性があります。これらを保存することは現実的ではないので、私は法的状態のみを検討しています。どのように4つのすべての合法的な州 - アクションのペアを生成するには?
すべての法的状態と行動に対してQ(s、a)を生成するにはどうすればよいですか?
これは私の宿題ではありません。私は補強アルゴリズムについて学びたいと思っています。私は2日以来これについて調べてきました。私が近づいたのは法的な州だけです。
1.Done - 次の移動はnextMove()によって生成されます。 2.完了 - applyMove(nextMove())によって新しい状態が返されます 3.完了 - 垂直、水平、斜め方向に評価する機能があります。 しかし私の質問はこれではありません。 Q-ラーニングアルゴリズムの第一歩であるすべての(法的な)状態 - アクションペアが必要です。私は質問をより明確にするために質問を編集しました。 –