私はe-greedyを使用しないとQ学習アルゴリズムで同じ結果が得られますか？

私はQ-Learningアルゴリズムを実装しようとしていますが、e-greedyでアクションを選択するのに十分な時間がありません。単純化のために、適切な正当な理由なしにランダムなアクションを選択しています。私はe-greedyを使用しないとQ学習アルゴリズムで同じ結果が得られますか？

出典

2017-10-27 Redion Xhepa

はい、ランダムアクションを選択すると、Q-learningは最適なポリシーを学習できます。すべての国家行動対が（漸近的に）無限に頻繁に訪問されることを確実にするためのe-greedy探査の目標は、収束要件[Sutton & Barto, Section 6.5]です。明らかに、ランダムアクション選択プロセスもこの要件を満たしています。

主な欠点は、エージェントがすべての学習段階で機能しなくなることです。また、おそらくコンバージェンス速度にペナルティを課すこともできますが、この最後の点はアプリケーションに非常に依存していると思います。

出典

2017-10-27 08:36:06

私はe-greedyを使用しないとQ学習アルゴリズムで同じ結果が得られますか？

答えて

関連する問題