Q学習では、Q関数を通常のフィードフォワードニューラルネットワークで近似すれば、報酬関数をどのように表現すればよいですか?ニューラルネットワーク近似Q関数による報酬関数
私はこれを目標に "近く"、 "非常に近い"離散値として表現する必要があります。私が心配しているのは、すでにQ-機能Q(s, a, θ)
とルックアップテーブルをもう使用していない場合、私はまだ報酬テーブルを構築する義務がありますか?
Q学習では、Q関数を通常のフィードフォワードニューラルネットワークで近似すれば、報酬関数をどのように表現すればよいですか?ニューラルネットワーク近似Q関数による報酬関数
私はこれを目標に "近く"、 "非常に近い"離散値として表現する必要があります。私が心配しているのは、すでにQ-機能Q(s, a, θ)
とルックアップテーブルをもう使用していない場合、私はまだ報酬テーブルを構築する義務がありますか?
"報酬表"のようなものはありません。あなたは、与えられたタイムスタンプで特定のエージェントワールド状態で生成される "報酬信号"を定義することになっています。この報酬はスカラー(数字)である必要があります。一般に、より複雑な報酬を考慮することができますが、Q-ラーニング報酬の典型的な設定では、アルゴリズムの目的は合計の割引報酬を最大化するようなポリシーを見つけることです。明らかに、追加、掛け算、そして最終的に比較できるオブジェクトが必要であり、効率的にそのようなオブジェクトは数字だけです(または数字に直接変換できます)。あなたの特別なケースでは、目標までの距離を知っていれば、距離に比例して報酬を与えることができます。-distance
または1/distance
(より良いスケーリングが保証されます)。
あなたが言ったとおり、報酬は距離を考慮に入れた関数から生成された現在のスコアとしての数字です。どうもありがとう! –