2017-12-11 6 views
0

DQNは、ANYポリシーに従うことによって収集された経験的データから最適なポリシーを学習するために、オフポリシーRLを使用する。専門家、以前の非最適政策などオフポリシーの強化学習と経験的な再生でラムダを使用できますか?

を観察した経験は、フォームのデータの集まりです:

(S1、A1、R2、S2)

ここでr2は受信実際の報酬でありますa1を実行した直後。

経験

は、フォームの教師付き学習の例を設定するために使用されています

ネットINPUT:(S1、A1)、当期純TARGET:R2 +ガンマ* ARGMAX(、Q(S2、A)))

r2を適格トレースで計算するとr2を計算できますか?私はそれができないと推測しています。それは、r2が、経験を生み出すために使われた政策に依存することになるからです。

ラムダはon-policy RLにのみ適用できますか?

答えて

0

off-policy強化学習アルゴリズムでは、いくつかの考慮事項を考慮して適格トレースを適用する必要があります。理由はまさにあなたが述べたことです。

しかし、たとえそれが上のポリシー方法におけるよりも効率だ、跡もオフポリシー ALGOSに有用であることができます。 Sutton & Barto's book (Chapter 7. Elegibility traces, Section 6)では、他の場合にも適用することができるQ学習の場合のための偉大な説明を表示されます:Q-学習は ポリシーがある必要はないについて学んだことを意味し、オフ・ポリシー・メソッドである

リコールアクションは のアクションを選択するのと同じものです。特に、Q-ラーニングは貪欲なポリシー について学習しますが、通常は探索的な アクション - 時には最適化されていないアクションの選択があります( )。このため、資格トレースを導入する場合は、特別な注意が必要です。

時には状態とアクションのペアをバックアップするとします。次の2つの時間ステップで がエージェントが欲張りアクションを選択すると仮定しますが、エージェントは アクションを実行することを選択します( アクション)。欲張りポリシーの価値について学ぶにあたっては、 以降の経験は、欲張りポリシーが である限り、使用することができます。したがって、1ステップと2ステップのリターンを使用できますが、 ではなく、3ステップリターンです。 -stepは、貪欲なポリシーとの関係が長くても、すべての時間がに戻ることを返します。

関連する問題