0
私はQ-Learningアルゴリズムを実装しようとしていますが、e-greedyでアクションを選択するのに十分な時間がありません。単純化のために、適切な正当な理由なしにランダムなアクションを選択しています。私はe-greedyを使用しないとQ学習アルゴリズムで同じ結果が得られますか?
私はQ-Learningアルゴリズムを実装しようとしていますが、e-greedyでアクションを選択するのに十分な時間がありません。単純化のために、適切な正当な理由なしにランダムなアクションを選択しています。私はe-greedyを使用しないとQ学習アルゴリズムで同じ結果が得られますか?
はい、ランダムアクションを選択すると、Q-learning
は最適なポリシーを学習できます。すべての国家行動対が(漸近的に)無限に頻繁に訪問されることを確実にするためのe-greedy探査の目標は、収束要件[Sutton & Barto, Section 6.5]です。明らかに、ランダムアクション選択プロセスもこの要件を満たしています。
主な欠点は、エージェントがすべての学習段階で機能しなくなることです。また、おそらくコンバージェンス速度にペナルティを課すこともできますが、この最後の点はアプリケーションに非常に依存していると思います。