強化学習アルゴリズムで最も重要な課題は、探査と開発のバランスを取ることです。 私はおもちゃの問題で学習しているQを実行しようとしています。早いイプシロン崩壊が起こっていることに気づいています。 エージェントがより多くの探査を行い、イプシロンの減衰が約0.999になるように、イプシロンを高く(0.9または1)選択しました。 どのようにしてイプシロンの減衰を遅くするか、言い換えればエージェントが非常に欲張りになりたくないのですか?私の減衰パラメータは何ですか? ありがとう!Q学習におけるイプシロン崩壊
1
A
答えて
0
実行している反復回数、各エピソードごとに実行されたステップ数、およびそれをいつどのように減衰させたいかによって異なります。 私は、各反復で腐敗したイプシロン値をプロットし、あなたが望むように動いているかどうかを確認することをお勧めします。
0
減衰関数をどのように実装しましたか?
イプシロン=イプシロン*のepsilon_decay
時間をかけて自分のイプシロン値をプロットする提案は良いものです。このページのプロットもご覧ください: Exponential Decay
恐らく、減衰定数を配合に加える必要があります。
関連する問題
- 1. 強化学習、なぜパフォーマンスが崩壊したのですか?
- 2. Q学習係数のオーバーフロー
- 3. SSRS - 展開/崩壊同じ細胞における
- 4. 関数近似とq学習
- 5. ディープQ学習アルゴリズムのphiとは
- 6. 機械学習における連続回帰
- 7. パーセプトロン学習 - 重み更新における入力直観
- 8. 機械学習におけるマルチラベル/マルチタスク/マルチクラス回帰
- 9. LSTMにおける学習率の低下
- 10. ニューラルネットワークにおける学習曲線と検証曲線
- 11. 強化学習における値の反復の基本ケース
- 12. ニューラルネットワークによるQ学習への古いシステムの更新
- 13. 線形関数近似によるQ学習
- 14. 崩壊カウントバブル、避ける方法?
- 15. 2DアクションとQ学習と2Dは、次のように
- 16. Xamarin - 崩壊テキスト
- 17. 崩壊日は
- 18. 崩壊多数
- 19. 崩壊のフィールドセット
- 20. アコーディオン崩壊jquery
- 21. ブートストラップボタングループの崩壊
- 22. ブートストラップ崩壊が
- 23. 崩壊がモーダル
- 24. netbeans崩壊コメントブロック
- 25. マテリアライズボタン崩壊ブレークポイント
- 26. 崩壊ツリービュー
- 27. ブートストラップグリッドシステムが崩壊
- 28. 崩壊3列
- 29. 深いqの学習が収束していない
- 30. Q深い学習アルゴリズムがうまく動作しない