は、学習エージェントが離散分布を学習できるようにする

グリッドワールドでは、最初のポリシーに従ったアクションを、利用可能なアクション間の離散分布として開始します。私は各状態で4つの行動（北、南、東、西）を持っていると言うと、今私は各状態で50％の時間、私はアクション "北"を選択することにします。 30％の時間、私はアクション「南」を選択します。 10％時間アクション "東"と残りの10％アクション "西"。最適な方針にどのような影響を及ぼすでしょうか。もし私が行動の中で一様なランダム分布を選んだならば。私は、より頻繁に行動を探索することは、その状態と行動のペアのq値が速く収束し、より本物になることを可能にすると思います。しかし、もし私が行動を探るならば、そのq値はもっと大きくなるでしょう。私が正しいかどうか教えてください。は、学習エージェントが離散分布を学習できるようにする

出典

2016-07-06 Prabir

あなたの流通があなたの世界のどの州にも行くことができるなら、あなたのエピソードの数が無限に近づくにつれて何の効果もありません。つまり、あなたがあなたの行動を描く確率分布にかかわらず、正確に（最適な方針が1つしかないと仮定して）同じ最適な方針を得るでしょう。

もちろんこれは理論的には当てはまりますが、実際には確率分布を変える別の副作用に気付くかもしれません。

がまたはが右と選択されていることを前提としているとします。目標が常に左側にあり、アクションを選択する確率が99％である場合、最適なポリシーは非常に迅速に取得されます。 を選択する確率がの場合、最適なポリシーは非常にゆっくりと取得されます。いずれにしても、十分なエピソードで、最適なポリシーを取得します。

同じことが、エピソード中に確率分布が変化する可能性のあるe-greedy方式にも当てはまります。

出典

2016-07-06 19:34:12 Andnp

これは、利用可能なアクションの中で一様ランダム分布を使用してアクションを実行することが私たちの目標であることを常に意味することを意味します。なぜなら、反復回数の平均値（無限に近づいているエピソードの最小値と最小値の間の平均値）で常に最適な方針を見つけるからです。私が目標状態に関する特別な情報を持っていない限り、配布後の行動をとることは特別な利点はありません。あなたが言ったように、 "目標は常に左にある"。 – Prabir

私は、一様ランダム分布を使うことは常に*安全であると言っていることを恥ずかしく思っています。その配布に従っている間にすべての状態に入ることができる限り、配布は安全です。特定のディストリビューションは、環境に応じて収束が速くなるという利点があります。これは環境についてのさらなる知識がなくても当てはまるかもしれませんが、実験によってのみ見つけられます。 – Andnp

は、学習エージェントが離散分布を学習できるようにする

答えて

関連する問題