Q-learningの間にR(s)関数を更新する適切な方法は何ですか?例えば、エージェントが状態s1を5回訪れ、報酬[0,0,1,1,0]を受け取るとする。私は平均報酬を計算すべきですか? R(s1)= sum([0,0,1,1,0])/ 5?または、その州に対して受け取った最新の報酬額に大きな重みを与える移動平均を使用すべきですか?私が読んだQ-ラーニングの説明のほとんどは、R(s)を何らかの一定のものとして扱い、経験が蓄積されるにつれてこの価値をどのように学ぶかをカバーしていないようです。マルコフ決定プロセスにおける報酬関数の学習方法
EDIT:Markov Decision ProcessにQ-LearningのR(s)とR(s、s ')を混同している可能性があります。問題は同様のままです。 MDPを学ぶとき、R(s、s ')を更新する最良の方法は何ですか?
あなたは答えを受け入れることができますか、それとも何が欠けていると言うことができますか? –