私は7種類のペナルティ値を持つ500 * 500グリッドを持っています。私は、アクションスペースに11のアクションが含まれているRLエージェントを作成する必要があります。 (左、右、上、下、4つの対角線方向、スピードアップ、スピードダウン、通常速度)。どうすればこの問題を解決できますか? 選択された '実行されたアクション'の確率は0.8です。それ以外の場合は、ランダムなアクションが選択されます。また、ペナルティ値は動的に変化する可能性があります。大きな状態の作用空間を持つ動的環境における強化学習
0
A
答えて
0
この章は、Sutton incompleteideas.net/sutton/book/ebook/node15.htmlを参照してください。特に、後のセクションでの彼の実験を参照してください。あなたの問題は、各武器が報酬の正規分布を返すという点で、N-Armed山賊と似ています。この章では主に探査に重点を置いていますが、問題は当てはまります。
あなたの状態が実際にペナルティの正規分布を返す場合は、状態の平均値を得るために十分にドメインを探索する必要があります。これらの場合の平均はQ *です。これはあなたに最適なポリシーを与えます。
フォローアップとして、状態空間が大きすぎるか、または連続的である場合、関数近似器で一般化を検討する価値があるかもしれません。同じコンバージェンスルールが適用されますが、関数の近似が問題になる場合があります。私はそれがこの議論の範囲を超えていると言います。
関連する問題
- 1. 強化学習における無限状態空間モデルの構築
- 2. 強化学習における同じ状態の報酬が異なる
- 3. 強化学習と動的プログラミング
- 4. パイ脳強化学習;状態の次元
- 5. 強化学習における値の反復の基本ケース
- 6. Python学習環境
- 7. 可変動作で強化学習
- 8. 強化学習の無効な移動
- 9. 継続的インテグレーション環境における統合テスト:データベースとファイルシステムの状態
- 10. 強化学習:ニューラルネット
- 11. 直接/間接および監視/非監督/強化学習
- 12. サブプロセス間の環境状態を維持する.Popenコマンド?
- 13. 強化学習:連続動作と連続状態空間の離散化ステップと性能メトリックの選択のジレンマ
- 14. C++強化学習ライブラリ
- 15. 学習曲線の具体的な形状について
- 16. 平面グラフの境界(境界)エッジを見つける(幾何学的形状)
- 17. テトリスのための強化学習
- 18. Q学習におけるイプシロン崩壊
- 19. 2つの状態間のスムーズな遷移(動的に生成)
- 20. 複数の独立した出力を持つ強化学習a3c
- 21. 自律ナビゲーションの強化学習を使用する
- 22. 状態で大きな配列を持つマルチプロセッシング
- 23. 機械学習における正規化と正規化の違い
- 24. 教師あり学習、(ii)教師なし学習、(iii)補強学習
- 25. 強化学習有限の状態とアクションで与えられたポリシーの総数
- 26. 単純なゲームのための深い強化学習パラメータとトレーニング時間
- 27. 多くの離散的な機能を持つ学習データセット
- 28. 強化学習アルゴリズムのためのデータの効率的な供給
- 29. 強化学習 - 生のピクセルから学ぶ
- 30. 共有ポイントを学習すると、dev環境をセットアップできますか?予約のおすすめ?
ペナルティ値が動的に変化することはどういう意味ですか?状態1がxの平均を持ついくつかの分布を返すことができるか?またはそれは完全に均一ですか?ダイナミックなペナルティ値は報酬を処理するだけですか? –
動的変化とは、1つのインスタンスに到達すると状態1に達し、4のペナルティを与えるとします。他のインスタンスでは、状態1に達すると、5のペナルティが与えられます。ペナルティが与えられた状態1正規分布から。これはすべての州に当てはまります。 –