2017-03-16 14 views
0

モンテカルロ政策評価アルゴリズムの理解に問題があります。私が読んでいるのは、Gが特定の州を訪問した後の平均収益率で、初めてs1と言うことができます。これは、その状態に続くすべての報酬を平均してエピソードの最後にs1とし、結果の値をs1に割り当てることを意味しますか?または、複数のエピソードで平均したs1の行動を取った場合に受け取った即座の報酬を意味しますか?モンテカルロ政策評価の混乱

答えて

1

モンテカルロ政策評価の目的は、与えられた政策πの価値関数を見つけることです。ポリシーの価値関数は、状態にあることから生じる累積割引報酬を予測し、そのポリシーを永久に、またはエピソードの終わりまで伝えます。これは状態のの期待戻り値を示しています。

この値関数を推定するためのモンテカルロアプローチは、単にポリシーを実行し、各状態からの戻り値を追跡することです。私が初めて国家に達したとき、残りのエピソードでどれくらいの割引報酬が累積されますか?あなたが観察したすべてのものを平均します(あなたが走った各エピソードにつき、あなたが訪れた各州ごとに1つのリターン)。

この平均値は、エピソードの最後までその状態s1を次してからs1に結果の値を割り当てるすべての報酬を平均化していますか?または、複数のエピソードで平均したs1の行動を取った場合に受け取った即座の報酬を意味しますか?

あなたの最初の考えは正しいです。