0
関数近似でQ-ラーニングアルゴリズムを使用する方法について、参考にしたいと思います。基本的なQ-ラーニングアルゴリズムについては、例を見つけました。私はそれを理解したと思います。関数近似を使用する場合、私は問題に陥る。誰かが、どのように動作するかの簡単な例を通して、私に説明を与えることができますか?私が知っている何線形関数近似によるQ学習
:
- 我々は機能やパラメータを使用してQ値のための行列を使用してのIstead。
- feauterとパラメータの線形結合で近似します。
- パラメータを更新します。
私はこの論文チェックしていますQ-learning with function approximation
をしかし、私はどのようにそれを使用する任意の有用なチュートリアルを見つける傾けます。
ありがとうございました!