制御システム用の適応コントローラ、つまりQラーニングを使用した電力管理システムを作成しようとしています。私は最近、カートポールシステムのおもちゃRL問題を実装し、Andrew NGのメモからヘリコプター制御問題の定式化を試みました。このような状況で、価値関数の近似がいかに必要であるか、私は感謝しています。しかしながら、これらの一般的な例の両方は、可能な離散的アクションの数が非常に少ない。私は3つの質問があります:強化学習:連続動作と連続状態空間の離散化ステップと性能メトリックの選択のジレンマ
1)少数の離散的な行動がない場合、このような問題を処理する正しい方法は何ですか?私の行動や州の次元は爆発しているように見え、学習は非常に貧弱に見えます。それが私の次の質問につながります。
2)エージェントのパフォーマンスをどのように測定しますか?報酬は動的環境と連動して変化するため、毎回のステップで私の継続的なRLエージェントのパフォーマンスメトリクスを決定することはできません。また、gridworldの問題とは異なり、私は巨大な国家行動対のためにQ値表を確認することができません。私の行動が最適であることをどのように知っていますか?
3)私は時を経て状態を進化させるモデルを持っています。状態= [Y、U]。 Y [t + 1] = aY [t] + bAここで、Aはアクションである。 アクションAの離散化ステップを選択すると、状態変数Yを離散化する必要がどの程度細かく変わるかにも影響します。離散化ステップはどのように選択しますか? ありがとう!