2016-08-24 1 views
1

各状態が同じ行動集合を持たない問題に対して関数近似を用いてQ-学習を適用しています。そこ時に各状態がそれほどアクションの同じセットを持っていないように私がターゲット各状態が同じ行動集合を持たない関数近似を伴うQ-学習

ターゲット= R(S、S ')+(MAX_A' * Q(S'、A '))

を計算しています私の状態定義内にも一連のアクションを含めるべきですか?それ以外の場合は、2つの状態が他のすべての機能で非常に似ている可能性があります。たとえ私が一連の行動を含んでいても、各状態は異なる行動の数を持つので、問題はベクトルの長さです。私を助けてください。

答えて

0

私の提案は、動作を機能の加重和として表現することです。

たとえば、ニューラルネットワークを使用している場合、入力レイヤーは状態になり、出力レイヤーはアクションの機能になります。 NN(s)_iは、与えられたニューロンネットのi番目の出力ニューロンの値であり、a_iは、与えられた重みであり、Q(s、a)行動によって特徴i

これはまた、入力ごとに異なる最後の層で所定の重みを有する単一のニューラルネットワークを有すると解釈することもできる。これは概念的には非常に面倒ですが、プログラムするのは簡単です。

+0

申し訳ありませんが、あなたのソリューションのアプローチを理解できませんでした。私がしていることは、各状態アクション対がニューラルネットの入力層で使用される特徴の集合であり、ターゲットT =即時報酬+次状態以降の最大報酬であることである。次の状態からの最大ペイオフは、次の状態以降に利用可能なアクションのセットが異なるために変化するからです。現在の状態とアクションペアの特徴ベクトルの特徴として、次の状態から利用可能なアクションを含めずに、現在の状態でこれをどのように捕捉するのか? – Prabir

関連する問題