1

制御システム用の適応コントローラ、つまりQラーニングを使用した電力管理システムを作成しようとしています。私は最近、カートポールシステムのおもちゃRL問題を実装し、Andrew NGのメモからヘリコプター制御問題の定式化を試みました。このような状況で、価値関数の近似がいかに必要であるか、私は感謝しています。しかしながら、これらの一般的な例の両方は、可能な離散的アクションの数が非常に少ない。私は3つの質問があります:強化学習:連続動作と連続状態空間の離散化ステップと性能メトリックの選択のジレンマ

1)少数の離散的な行動がない場合、このような問題を処理する正しい方法は何ですか?私の行動や州の次元は爆発しているように見え、学習は非常に貧弱に見えます。それが私の次の質問につながります。

2)エージェントのパフォーマンスをどのように測定しますか?報酬は動的環境と連動して変化するため、毎回のステップで私の継続的なRLエージェントのパフォーマンスメトリクスを決定することはできません。また、gridworldの問題とは異なり、私は巨大な国家行動対のためにQ値表を確認することができません。私の行動が最適であることをどのように知っていますか?

3)私は時を経て状態を進化させるモデルを持っています。状態= [Y、U]。 Y [t + 1] = aY [t] + bAここで、Aはアクションである。 アクションAの離散化ステップを選択すると、状態変数Yを離散化する必要がどの程度細かく変わるかにも影響します。離散化ステップはどのように選択しますか? ありがとう!

答えて

3

あなたは連続行動強化学習アルゴリズムを使用して、離散化の問題を完全に回避することができます。 CACLAをご覧ください。 パフォーマンスに関しては、学習をオフにしてエピソード中にエージェントの累積報酬を測定する必要があります。あなたの環境は確率的なので、多くの測定値を取って平均します。

2

ポリシー検索アルゴリズムをご覧ください。基本的には、明示的な価値関数を持たないパラメトリックポリシーを直接学習するので、Q関数を連続的な行動に近似させる問題を回避することができます(例えば、アクション空間の離散化は不要です)。

最も簡単で早いポリシー検索アルゴリズムの1つが、ポリシーの勾配です。トピックについての簡単なアンケートにはhereをご覧ください。ポリシー検索に関する調査のためのhere(現在、もっと最近の手法がありますが、これは非常に良い出発点です)。 制御問題の場合、見ることができる非常に簡単なおもちゃの仕事がある、Linear Quadratic Gaussian Regulator (LQG)Hereこの例を含む講義や、ポリシー検索とポリシーのグラデーションの紹介もあります。

環境が動的である(つまり、遷移関数の報酬関数(またはその両方)が時間とともに変化する)場合、非定常的なポリシーを調べる必要があります。これは通常、RLでははるかに難しい問題です。