7

最近ニューラルネットワークを使ったQ学習について多くのことを読んできましたが、単純なフィードフォワード構成の発電所ボイラーで既存の古い最適化システムを更新しようと考えました。多くの感覚入力からの出力を近似する前方ニューラルネットワーク。次に、出力は、モデル全体が所望の目標に収束するように、何らかの形で再び最適な動作を出力する線形モデルベースのコントローラにリンクされます。ニューラルネットワークによるQ学習への古いシステムの更新

線形モデルを特定することは、消費する作業です。私は、Q関数のニューラルネットワーク近似を使って、モデルを使わないQ学習に全部を改装することを考えました。私は正しい道を歩いているかどうかを尋ねるダイアグラムを描きました。

model

私の質問:あなたは私がよく概念を理解して思えば、私のトレーニングセットは、1つの側面からState Features vectorsQ_target - Q_currentで構成されなければならない(ここで私は増加の報酬がありますと仮定しています)を強制するために、ターゲットに向かって全体のモデルか、私は何かを逃していますか?

注:この図は、上部の古いシステムと下部の提案された変更との比較を示しています。

EDIT:状態ニューラルネットワークはエクスペリエンスリプレイを保証しますか?

答えて

1

現在の状態のすべてのアクションのすべてのQ値を、ネットワークの出力レイヤーとして使用することができます。描画が不十分な場合 here

したがって、複数のQ値を同時に出力するNNの能力を利用することができます。次に、Q(s, a) <- Q(s, a) + alpha * (reward + discount * max(Q(s', a')) - Q(s, a)によって得られた損失を使用して小道具を戻すだけです。ここで、max(Q(s', a'))は出力レイヤーから簡単に計算できます。

ご質問がある場合はお知らせください。

関連する問題