0

私は7種類のペナルティ値を持つ500 * 500グリッドを持っています。私は、アクションスペースに11のアクションが含まれているRLエージェントを作成する必要があります。 (左、右、上、下、4つの対角線方向、スピードアップ、スピードダウン、通常速度)。どうすればこの問題を解決できますか? 選択された '実行されたアクション'の確率は0.8です。それ以外の場合は、ランダムなアクションが選択されます。また、ペナルティ値は動的に変化する可能性があります。大きな状態の作用空間を持つ動的環境における強化学習

+0

ペナルティ値が動的に変化することはどういう意味ですか?状態1がxの平均を持ついくつかの分布を返すことができるか?またはそれは完全に均一ですか?ダイナミックなペナルティ値は報酬を処理するだけですか? –

+0

動的変化とは、1つのインスタンスに到達すると状態1に達し、4のペナルティを与えるとします。他のインスタンスでは、状態1に達すると、5のペナルティが与えられます。ペナルティが与えられた状態1正規分布から。これはすべての州に当てはまります。 –

答えて

0

この章は、Sutton incompleteideas.net/sutton/book/ebook/node15.htmlを参照してください。特に、後のセクションでの彼の実験を参照してください。あなたの問題は、各武器が報酬の正規分布を返すという点で、N-Armed山賊と似ています。この章では主に探査に重点を置いていますが、問題は当てはまります。

あなたの状態が実際にペナルティの正規分布を返す場合は、状態の平均値を得るために十分にドメインを探索する必要があります。これらの場合の平均はQ *です。これはあなたに最適なポリシーを与えます。

フォローアップとして、状態空間が大きすぎるか、または連続的である場合、関数近似器で一般化を検討する価値があるかもしれません。同じコンバージェンスルールが適用されますが、関数の近似が問題になる場合があります。私はそれがこの議論の範囲を超えていると言います。

関連する問題