2012-01-10 8 views
1

2つのRLテクニックの報酬はどのように働くのですか?つまり、彼らは政策と評価を改善しますが、報酬は改善しません。 最初からどのように推測する必要がありますか?QラーニングとTD(ラムダ)の報酬

+1

[強化学習:QLearningとSarsaTDの違い?](http://stackoverflow.com/questions/6848828/reinforcement-learning-differences-between-qlearning-and-sarsatd) –

答えて

0

あなたは報酬を推測する必要はありません。報酬は環境からのフィードバックであり、報酬は環境のパラメータです。アルゴリズムは、エージェントがフィードバック、状態空間、および行動空間のみを観測できるという条件で動作します。

QラーニングとTDの重要なアイデアは、ベルマンオペレータの固定小数点を、長期間の報酬期待の騒がしい評価を使用して近似する非同期確率的近似です。

たとえば、期待ガウス分布を推定したい場合、それをサンプリングして平均化することができます。

0

補強学習は、AIエージェントが操作している世界についての情報がないという問題のためのものです。補強学習は、各状態でポリシー/最適なアクションを実行するだけでなく、結果がどのような状態になるかについての知識はありません)、この新しい環境のパラメータを学習します。これらはモデルベースの強化学習アルゴリズムです

今Q学習と時間差学習は、モデルのない強化学習アルゴリズムです。つまり、AIエージェントはモデルベースのAlgoと同じことを行いますが、動作中の世界のモデル(遷移確率など)を学習する必要はありません。多くの反復を通じて、各状態のマッピングが行われますその状態で実行されるべき最適の動作に至る。

あなたの質問には、別の州の報酬を推測する必要はありません。エージェントが環境に初めて参加したときは、エージェントが存在する状態から実行されるランダムなアクションを選択してシミュレータに渡すだけです。シミュレータは、遷移関数に基づいて、その状態アクション対の結果状態を返し、その状態にあることに対する報酬も返す。

シミュレータは、現実世界の自然に似ています。例えば、あなたが世界で馴染みのないものを見つけたら、それに触れるような何らかのアクションを実行します。ホットなオブジェクトであることが判明したら、自然は痛みの形で報酬を与えます。そのアクションを試してください。これをプログラミングする際には、シミュレータの動作が環境を学習しようとしているAIエージェントには見えないことに注意することが重要です。

エージェントはこの報酬に応じて、Q値(Qラーニングの場合)またはユーティリティ値(TDラーニングの場合)をバックアップします。多くの反復で、これらのQ値は収束し、状態 - アクション・ペアのQ値に応じて、すべての状態に対して最適なアクションを選択することができます。

関連する問題