2016-07-12 4 views

答えて

0

の端子状態が必要ですが、それは有用であり、ちょうど罰のために使用されていないされていません。

例としてPongを取るには、プレイヤーが得点するか、または認めたときにターミナル状態がトリガーされます。それは刑罰中立です。ここでの端末状態のポイントは、ゲーム状態を獲得した後、ボールとパドルが開始位置に戻されるためである。これは、前の状態(端末1)と次の状態との間に接続がないことを意味する。いずれの端末もない状態の報酬を計算するとき、その状態の報酬とQ関数の将来の報酬を使用する。端末状態では未来の報酬はないので、現在の状態から報酬を使うことができます。

これは、学習時のノイズを大幅に削減できるという利点があります。私が言ったように、ターミナル状態は必要ありませんが、あなたが持っていない場合は、このレベルでほとんどの報酬が最終的には時間の経過とともに混ざり合うので、標準0.99よりかなり低い将来の報酬割引を調整したいかもしれません。

これが役に立ちます。

+0

あなたの答えは@DanielSlaterに感謝します。私は、将来の報酬割引をすでに0.9に引き下げましたが、何が起こるかを知るために、より多くのことを行います。別の質問:報酬を増やす必要があるか、報酬を与えるか目標に達すると常に1ポイントで新しい目標を送信し、再びこの目標に達すると2ポイントではなく1ポイントだけを戻します。または、報酬0,1,2,3 ...を増やす必要がありますか? –

+0

@floboticsrobotics報酬を増額する必要はありません。しかし、あなたはいくつかの報酬が他のものよりも大きくなるようにしたいかもしれません。報酬は、エージェントがさまざまな状態にアタッチする相対的な値です。あなたが言うことから、あなたのエージェントが順番にそれぞれのゴールに向かうようにしたいので、それぞれが1つで十分かもしれません(ただし、テストだけであなたに伝えることができます)。 –

+0

ありがとう、私はテストします –

関連する問題