2017-05-10 2 views
2

強化学習の初心者です。それは些細な質問3つの状態{X、Y、Z}と2つのアクションを仮定強化学習有限の状態とアクションで与えられたポリシーの総数

に思えるかもしれない{A、B}

なぜポリシーの総数/探索空間は2^3 = 8

x - y - z (actions a,b) 
x - z - y (actions a,b) 
y - x - z (actions a,b) 
y - z - x (actions a,b) 
z - x - y (actions a,b) 
z - y - x (actions a,b) 

は、これは私だけ6つのポリシーを与えるだろう、これらのケースを考えてみましょうか?アクション(b、a)によって* 2を考えれば、それは私に12の政策を与えるでしょう。

私に何か不足していますか?

答えて

2

決定的なポリシー(あなたの場合)を仮定すると、ポリシーは各状態で実行する必要があるアクションを決定します。あなたの場合、3つの州(x,y,z)と2つの可能なアクション(a,b)があります。次に、これらは、あなたの可能ポリシーです:

+---+---+---+ 
| x | y | z | 
+---+---+---+ 
| a | a | a | 
| a | a | b | 
| a | b | a | 
| a | b | b | 
| b | a | a | 
| b | a | b | 
| b | b | a | 
| b | b | b | 
+---+---+---+ 

私はポリシー/サーチスペースの総数は2^3 = 8

ですなぜ今それがより明確に願っています
関連する問題