2
強化学習の初心者です。それは些細な質問3つの状態{X、Y、Z}と2つのアクションを仮定強化学習有限の状態とアクションで与えられたポリシーの総数
に思えるかもしれない{A、B}
なぜポリシーの総数/探索空間は2^3 = 8
は
x - y - z (actions a,b)
x - z - y (actions a,b)
y - x - z (actions a,b)
y - z - x (actions a,b)
z - x - y (actions a,b)
z - y - x (actions a,b)
は、これは私だけ6つのポリシーを与えるだろう、これらのケースを考えてみましょうか?アクション(b、a)によって* 2を考えれば、それは私に12の政策を与えるでしょう。
私に何か不足していますか?