2
私はJavaで最初から学習フットボールゲームを作ろうとしていますが、私はGoogle DeepMindのDeep Q-learningアルゴリズム(畳み込みネットワークはありません)で強化学習を実装しようとしています。 。私はすでにニューラルネットワークとQ-learningを構築していますが、今ではそれらをまとめてみようとしていますが、このコードでは分かりません。ディープQ学習アルゴリズムのphiとは
- 通常、Q値はランダム値ではなくゼロで初期化されていませんか?それともこれは私がΦ1=Φ(S1)(ライン4)
を配列決定する前処理
によって意味される何ニューラルネットワーク(ライン2)
の重みを意味していますこのアルゴリズムでΦが何を表すのか分かりませんでした。
ニース、ありがとう!私は2015年の紙を以前にも見つけていなかった。私は今までこれを読むつもりだ。 – Dope