最近ニューラルネットワークを使ったQ学習について多くのことを読んできましたが、単純なフィードフォワード構成の発電所ボイラーで既存の古い最適化システムを更新しようと考えました。多くの感覚入力からの出力を近似する前方ニューラルネットワーク。次に、出力は、モデル全体が所望の目標に収束するように、何らかの形で再び最適な動作を出力する線形モデルベースのコントローラにリンクされます。ニューラルネットワークによるQ学習への古いシステムの更新
線形モデルを特定することは、消費する作業です。私は、Q関数のニューラルネットワーク近似を使って、モデルを使わないQ学習に全部を改装することを考えました。私は正しい道を歩いているかどうかを尋ねるダイアグラムを描きました。
私の質問:あなたは私がよく概念を理解して思えば、私のトレーニングセットは、1つの側面からState Features vectors
とQ_target - Q_current
で構成されなければならない(ここで私は増加の報酬がありますと仮定しています)を強制するために、ターゲットに向かって全体のモデルか、私は何かを逃していますか?
注:この図は、上部の古いシステムと下部の提案された変更との比較を示しています。
EDIT:状態ニューラルネットワークはエクスペリエンスリプレイを保証しますか?