強化学習：ニューラルネット

ハイ状態空間で一般化するためにニューラルネットを使用している間、入力単位は何ですか？強化学習：ニューラルネット

たとえば、状態ベクトルが1次元の場合、実軸上の位置は、入力単位が1つだけなのでしょうか？

2016-07-01 Sridhar Thiagarajan

はい、少なくともQ-learningやSarsaのようなアルゴリズムを使用している場合は、関数近似器がQ関数Q(s,a)を学習する必要があります。あなたの場合、アクションごとに1つのニューラルネットワークを使用する場合、ネットワークは関数Q(s)に近づく必要があります。また、状態に次元性がある場合、ネットワークには入力ニューロンが1つだけ必要です。

出典

2016-07-02 11:41:40

同じニューラルネットが必要な場合は、それぞれの状態に独自のアクションがありますか？しかし、特定のアクションが特定の州でのみ可能な場合はどうなりますか？ネットワークはもはや完全に接続されていませんか？ –

私は、最も簡単な解決策は、完全に接続されたネットワークを持つことであり、状態アクションのいくつかの組み合わせが不可能である、例えばs0とa2の場合、ネットワークは単純にQ（s0、a2）= 0に近似しますゼロと報酬は積極的です）。つまり、ポリシーは状態s0でアクションa2を決して選択しません。多分、あなたが示唆するように、アドホックなネットワークアーキテクチャが助けになるかもしれませんが、わかりません。 –

ご協力いただきありがとうございます –

強化学習：ニューラルネット

答えて

関連する問題