モンテカルロ政策評価アルゴリズムの理解に問題があります。私が読んでいるのは、G
が特定の州を訪問した後の平均収益率で、初めてs1
と言うことができます。これは、その状態に続くすべての報酬を平均してエピソードの最後にs1
とし、結果の値をs1
に割り当てることを意味しますか?または、複数のエピソードで平均したs1
の行動を取った場合に受け取った即座の報酬を意味しますか?モンテカルロ政策評価の混乱
0
A
答えて
1
モンテカルロ政策評価の目的は、与えられた政策πの価値関数を見つけることです。ポリシーの価値関数は、状態にあることから生じる累積割引報酬を予測し、そのポリシーを永久に、またはエピソードの終わりまで伝えます。これは状態のの期待戻り値を示しています。
この値関数を推定するためのモンテカルロアプローチは、単にポリシーを実行し、各状態からの戻り値を追跡することです。私が初めて国家に達したとき、残りのエピソードでどれくらいの割引報酬が累積されますか?あなたが観察したすべてのものを平均します(あなたが走った各エピソードにつき、あなたが訪れた各州ごとに1つのリターン)。
この平均値は、エピソードの最後までその状態
s1
を次してからs1
に結果の値を割り当てるすべての報酬を平均化していますか?または、複数のエピソードで平均したs1
の行動を取った場合に受け取った即座の報酬を意味しますか?
あなたの最初の考えは正しいです。
関連する問題
- 1. STIとPUNDIT - 政策
- 2. チェック、解決策が偽の評価
- 3. S3政策課題ラムダ
- 4. Idrisの怠惰な評価について混乱しました
- 5. AWSのEMRとEC2の価格混乱
- 6. C++ - 演算子の混乱の混乱
- 7. 事業部の混乱混乱
- 8. 評価の範囲内のExcel評価
- 9. フィードバック評価の星の評価
- 10. Tensorflow Estimator - 評価データセットの定期評価
- 11. POI公式評価の評価
- 12. 散乱点からの楕円の評価/フィッティング
- 13. 線形混合モデル(lme4)のikelihood関数の評価
- 14. 混乱、
- 15. 混乱
- 16. 混乱
- 17. 混乱
- 18. 混乱
- 19. 混乱
- 20. 混乱
- 21. 混乱
- 22. 混乱
- 23. ポインタの混乱
- 24. メソッドバインディングの混乱
- 25. リアクションマップの混乱
- 26. データベーススキーマの混乱
- 27. CSSの混乱
- 28. タイピングの混乱?
- 29. textFileStreamの混乱
- 30. ドッカーの混乱