各状態が同じ行動集合を持たない問題に対して関数近似を用いてQ-学習を適用しています。そこ時に各状態がそれほどアクションの同じセットを持っていないように私がターゲット各状態が同じ行動集合を持たない関数近似を伴うQ-学習
ターゲット= R(S、S ')+(MAX_A' * Q(S'、A '))
を計算しています私の状態定義内にも一連のアクションを含めるべきですか?それ以外の場合は、2つの状態が他のすべての機能で非常に似ている可能性があります。たとえ私が一連の行動を含んでいても、各状態は異なる行動の数を持つので、問題はベクトルの長さです。私を助けてください。
申し訳ありませんが、あなたのソリューションのアプローチを理解できませんでした。私がしていることは、各状態アクション対がニューラルネットの入力層で使用される特徴の集合であり、ターゲットT =即時報酬+次状態以降の最大報酬であることである。次の状態からの最大ペイオフは、次の状態以降に利用可能なアクションのセットが異なるために変化するからです。現在の状態とアクションペアの特徴ベクトルの特徴として、次の状態から利用可能なアクションを含めずに、現在の状態でこれをどのように捕捉するのか? – Prabir