2016-10-31 6 views

答えて

2

Q学習はマルコフ決定過程(MDP)に最適なアクションを選択するための方針を見つけるためのアルゴリズムです。環境は報酬だけでなく、状態遷移確率によっても定義されます。 MDPは報酬が固定されたマトリックスである必要はありません。それはどんな機能でもあり得る。

MDPの状態遷移確率と報酬が、その後、最適なポリシーは、動的プログラミング技術を使用して見つけることができるすべての状態とアクションのために知られている場合、あなたはそのために強化学習を必要としません。

これらの技術とは異なり、報酬が不明な場合はQ学習は(すなわち、あなたが唯一のアクションを取った後、報酬値を参照)動作し、状態遷移確率が不明であるとき。 Q学習は、インスタント報酬行列Rを使用していない、それだけの状態sで行動aを取った後、それは状態s'と報酬値rを受けることが必要です。

+0

お返事ありがとうございます –

関連する問題