0
Qラーニングは、インスタント報酬行列Rを使用して環境をモデル化します。 それは、学習のために既知の行列Rを使用することを意味します。なぜ、Q学習は未知の環境で動作するのでしょうか?未知の環境でQラーニングがどのように機能しますか?
Qラーニングは、インスタント報酬行列Rを使用して環境をモデル化します。 それは、学習のために既知の行列Rを使用することを意味します。なぜ、Q学習は未知の環境で動作するのでしょうか?未知の環境でQラーニングがどのように機能しますか?
Q学習はマルコフ決定過程(MDP)に最適なアクションを選択するための方針を見つけるためのアルゴリズムです。環境は報酬だけでなく、状態遷移確率によっても定義されます。 MDPは報酬が固定されたマトリックスである必要はありません。それはどんな機能でもあり得る。
MDPの状態遷移確率と報酬が、その後、最適なポリシーは、動的プログラミング技術を使用して見つけることができるすべての状態とアクションのために知られている場合、あなたはそのために強化学習を必要としません。
これらの技術とは異なり、報酬が不明な場合はQ学習は(すなわち、あなたが唯一のアクションを取った後、報酬値を参照)動作し、状態遷移確率が不明であるとき。 Q学習は、インスタント報酬行列Rを使用していない、それだけの状態s
で行動a
を取った後、それは状態s'
と報酬値r
を受けることが必要です。
お返事ありがとうございます –