2016-07-01 10 views
0

ハイ状態空間で一般化するためにニューラルネットを使用している間、入力単位は何ですか?強化学習:ニューラルネット

たとえば、状態ベクトルが1次元の場合、実軸上の位置は、入力単位が1つだけなのでしょうか?

答えて

0

はい、少なくともQ-learningやSarsaのようなアルゴリズムを使用している場合は、関数近似器がQ関数Q(s,a)を学習する必要があります。あなたの場合、アクションごとに1つのニューラルネットワークを使用する場合、ネットワークは関数Q(s)に近づく必要があります。また、状態に次元性がある場合、ネットワークには入力ニューロンが1つだけ必要です。

+0

同じニューラルネットが必要な場合は、それぞれの状態に独自のアクションがありますか?しかし、特定のアクションが特定の州でのみ可能な場合はどうなりますか?ネットワークはもはや完全に接続されていませんか? –

+0

私は、最も簡単な解決策は、完全に接続されたネットワークを持つことであり、状態アクションのいくつかの組み合わせが不可能である、例えばs0とa2の場合、ネットワークは単純にQ(s0、a2)= 0に近似しますゼロと報酬は積極的です)。つまり、ポリシーは状態s0でアクションa2を決して選択しません。多分、あなたが示唆するように、アドホックなネットワークアーキテクチャが助けになるかもしれませんが、わかりません。 –

+1

ご協力いただきありがとうございます –

関連する問題