あなたは実質的に私のすべての州の行動の確率分布であるポリシーを持っています。価値関数は、最高の報酬を達成するための行動の最良のコースを決定します。ポリシーと価値機能の理解強化学習
私はランダムなポリシーを持っています。私は価値関数を得る。私は、価値関数にしたがって新しい分布で私の方針を更新する。私はこの新しい更新されたポリシーの価値関数を得て、もう一度再評価する。
この定義から、私は価値の反復がどのように機能するのか理解することができず、価値関数が何であるか誤解していると思います。
価値の機能は、行動の最良のコースではありませんが、それは報酬を決定するアクションのコースですか?ポリシーの反復は、現在の報酬よりも高い報酬を提供する価値関数を探し、その後すぐに更新して自分の状態(新しい方針)の新しい行動の分布を与え、その後収束するまで各状態ごとに繰り返します?
その場合、シーケンス内のすべての状態で単一の最良の可能なアクションを探している値の繰り返しです(より良い方法ではなく)。 がポリシーを更新する理由を理解するためにここで苦労していますか?
ポリシーと価値機能に関する私の理解は正しいですか?
ありがとうございます!
ポリシーの理解が間違っていると思います。ポリシーが単純に私の州のすべての可能なアクションを配布しているとすれば、それはどういう意味の「更新」なのかよく分かりません。単に配布を更新するだけの場合、初期化時にポリシーが最初にランダムではないため、値の反復が正確にどのように機能するかは「悪い」配布ではうまくいくのでしょうか?私はこれらがどのように収束し、それと同等に良いのか理解できません。
複数の質問で複数の質問をしますが、1つのモノリシック質問ではありません。 – vin