DQNは、ANYポリシーに従うことによって収集された経験的データから最適なポリシーを学習するために、オフポリシーRLを使用する。専門家、以前の非最適政策などオフポリシーの強化学習と経験的な再生でラムダを使用できますか?
を観察した経験は、フォームのデータの集まりです:
(S1、A1、R2、S2)
ここでr2は受信実際の報酬でありますa1を実行した直後。
経験
は、フォームの教師付き学習の例を設定するために使用されていますネットINPUT:(S1、A1)、当期純TARGET:R2 +ガンマ* ARGMAX(、Q(S2、A)))
r2を適格トレースで計算するとr2を計算できますか?私はそれができないと推測しています。それは、r2が、経験を生み出すために使われた政策に依存することになるからです。
ラムダはon-policy RLにのみ適用できますか?