2017-10-27 9 views

答えて

0

はい、ランダムアクションを選択すると、Q-learningは最適なポリシーを学習できます。すべての国家行動対が(漸近的に)無限に頻繁に訪問されることを確実にするためのe-greedy探査の目標は、収束要件[Sutton & Barto, Section 6.5]です。明らかに、ランダムアクション選択プロセスもこの要件を満たしています。

主な欠点は、エージェントがすべての学習段階で機能しなくなることです。また、おそらくコンバージェンス速度にペナルティを課すこともできますが、この最後の点はアプリケーションに非常に依存していると思います。

関連する問題