ディープQ学習アルゴリズムのphiとは

私はJavaで最初から学習フットボールゲームを作ろうとしていますが、私はGoogle DeepMindのDeep Q-learningアルゴリズム（畳み込みネットワークはありません）で強化学習を実装しようとしています。。私はすでにニューラルネットワークとQ-learningを構築していますが、今ではそれらをまとめてみようとしていますが、このコードでは分かりません。ディープQ学習アルゴリズムのphiとは

通常、Q値はランダム値ではなくゼロで初期化されていませんか？それともこれは私がΦ1=Φ（S1）（ライン4）

を配列決定する前処理

によって意味される何ニューラルネットワーク（ライン2）

の重みを意味していますこのアルゴリズムでΦが何を表すのか分かりませんでした。

出典

2016-10-04 Dope

これはΦ（s）は、前処理マップ/ステップを指す
ニューラルネットワークの重みを指し、Φは、Φ（S1）の短縮形である各フレームは210x160ピクセルであります×128色。いくつかの前処理がこの論文で使用されました。それらはちらつきを除去し、輝度のみを使用し、再スケーリングして積み重ねる。 2015年の論文の「方法」セクションをご覧ください。

出典

2016-10-07 11:32:59 purpletentacle

ニース、ありがとう！私は2015年の紙を以前にも見つけていなかった。私は今までこれを読むつもりだ。 – Dope

ディープQ学習アルゴリズムのphiとは

答えて

関連する問題