2016-10-19 5 views
2

累積適格トレース(http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node77.html)を持つs​​arsaλでは、与えられたアルゴリズムが式と一致しません。 Sutton&BartoのRL本のSARSAλトピックでこれは誤りですか?

formulaが最初のEとE←ɣλE+ 1

[アルゴ]として更新←E + 1、次いでE←ɣλEが効果
E更新を行う←ɣλ。(E + 1)

言う

これは正しいですか? 私はまったく同じ式とalgoを持った研究論文も見てきました。

E + 1の前後に括弧を入れていないという出版物には矛盾がありますか?
もしそうなら、ほとんどの研究論文が同じエラーをどのように複製したのでしょうか?

または
私が何か誤解している場合は、指摘してください。

答えて

0

括弧がないと思いますが、E←ɣλE+ 1です。 sは現在のものでなければ、Eは毎回ɣλだけ減少するはずです。 1は現在のsを参照します。ここにはhttp://webdocs.cs.ualberta.ca/~sutton/book/ebook/node75.htmlという数字があります。これは、この考え方をよりよく理解できるようにするため、Equ(7.5)と(7.6)の間のものです。

+1

私はこの図を見ていましたが、なぜ私のポイントはE←ɣλE+ 1(現在の状態では)の代わりにE←ɣλE+ɣλ – jaggi

+0

で更新していますか?図7.11 [http://webdocs.cs.ualbertaすべての州でE←ɣλEと表示されています。現在の状態には、ループの 'decay'の直前に適格トレースが1だけインクリメントされています。 – jaggi

+0

私はcan not 'あなたの意見を理解する。あなたはEqu(7.13)を見ましたか?これを理解できますか?可能であれば、図7.11では、8行目と11行目が式(7.13)の言うことをしています。現在のs、aについては、e(s、a)が8行目と11行目で更新されているため、E←ɣλE+ɣλnot E←ɣλE+ 1で更新されます。まあ、私はこれを理解していると思っていましたが、今もあなたのように混乱しています。 – user186199

関連する問題