0
多くの強化学習(RL)論文では、Markov Decision Process(MDP)がRL問題の典型的な問題設定です。この設定の本当のメリットは何ですか?いくつかの論文では、明らかにMDPの仮定に違反し、より理にかなったポリシーネットワーク構造としてLSTMを使用しています。強化学習でMDP設定が必要な理由
多くの強化学習(RL)論文では、Markov Decision Process(MDP)がRL問題の典型的な問題設定です。この設定の本当のメリットは何ですか?いくつかの論文では、明らかにMDPの仮定に違反し、より理にかなったポリシーネットワーク構造としてLSTMを使用しています。強化学習でMDP設定が必要な理由
基本的に、Markov Decision Processesは、アルゴリズムのコンバージェンス保証と他の理論的特性を分析できる理論的フレームワークを提供します。 LSTMと他の深い学習アプローチはRLと組み合わせても印象的な結果に達していますが、アルゴリズムが有用なものをいつ学習するのか、あるいは学習されたポリシーが最適なものからどれくらい離れているかを理解したり保証したりする堅実な理論的背景が欠けています。