0

関数近似でQ-ラーニングアルゴリズムを使用する方法について、参考にしたいと思います。基本的なQ-ラーニングアルゴリズムについては、例を見つけました。私はそれを理解したと思います。関数近似を使用する場合、私は問題に陥る。誰かが、どのように動作するかの簡単な例を通して、私に説明を与えることができますか?私が知っている何線形関数近似によるQ学習

  1. 我々は機能やパラメータを使用してQ値のための行列を使用してのIstead。
  2. feauterとパラメータの線形結合で近似します。
  3. パラメータを更新します。

私はこの論文チェックしていますQ-learning with function approximation

をしかし、私はどのようにそれを使用する任意の有用なチュートリアルを見つける傾けます。

ありがとうございました!

答えて

2

私の見解では、thisは、最初に参考になる参考資料の1つです。いくつかの擬似コードの例がよく書かれています。あなたのケースでは、適格性の痕跡を無視してアルゴリズムを単純化することができます。

また、私の経験やユースケースによっては、Q-Learningがうまく機能しないことがあります(経験データが膨大な場合があります)。 Fitted-Q値(例えば、バッチアルゴリズム)を試すことができます。

関連する問題