2016-10-04 14 views
2

私はJavaで最初から学習フットボールゲームを作ろうとしていますが、私はGoogle DeepMindのDeep Q-learningアルゴリズム(畳み込みネットワークはありません)で強化学習を実装しようとしています。 。私はすでにニューラルネットワークとQ-learningを構築していますが、今ではそれらをまとめてみようとしていますが、このコードでは分かりません。ディープQ学習アルゴリズムのphiとは

  1. 通常、Q値はランダム値ではなくゼロで初期化されていませんか?それともこれは私がΦ1=Φ(S1)(ライン4)

    を配列決定する前処理

によって意味される何ニューラルネットワーク(ライン2)

  • の重みを意味していますこのアルゴリズムでΦが何を表すのか分かりませんでした。

  • 答えて

    2
    1. これはΦ(s)は、前処理マップ/ステップを指す
    2. ニューラルネットワークの重みを指し、Φは、Φ(S1) の短縮形である各フレームは210x160ピクセルであります×128色。いくつかの前処理がこの論文で使用されました。それらはちらつきを除去し、輝度のみを使用し、再スケーリングして積み重ねる。 2015年の論文の「方法」セクションをご覧ください。
    +0

    ニース、ありがとう!私は2015年の紙を以前にも見つけていなかった。私は今までこれを読むつもりだ。 – Dope

    関連する問題