私はQ-学習においてε-欲張り政策行動選択政策を実装したいと思います。ここでは多くの人々が、探査の減少率について次式、使用している探索率が低下するε-貪欲政策
ɛ= E ^( - エン)
N =エージェントの年齢
E =搾取パラメータ
しかし、この「n」は何を意味するのかはっきりしていませんか?特定の州 - 行動対への訪問回数であるか、それとも反復回数ですか?
ありがとうございました
私はQ-学習においてε-欲張り政策行動選択政策を実装したいと思います。ここでは多くの人々が、探査の減少率について次式、使用している探索率が低下するε-貪欲政策
ɛ= E ^( - エン)
N =エージェントの年齢
E =搾取パラメータ
しかし、この「n」は何を意味するのかはっきりしていませんか?特定の州 - 行動対への訪問回数であるか、それとも反復回数ですか?
ありがとうございました
あなたの質問に対して有効な回答がいくつかあります。理論的な観点から、収束を達成するために、Q学習は、すべての状態 - 行動対が(漸近的に)無限に頻繁に訪れることを必要とする。
以前の状態は多くの方法で達成できます。私の意見では、n
を、単に時間ステップの数、すなわちエージェントが環境とどのくらいの相互作用を行ったかを単純に解釈することがより一般的です[Busoniu, 2010, Chapter 2]。
しかし、いくつかのケースでは、探索速度は各状態ごとに異なる可能性があり、したがってn
はエージェントが状態s
[たとえば、Powell, 2011, chapter 12]にアクセスした回数です。
両方の解釈が同じように有効であり、Q-ラーニングの漸近的収束を保証する(他の条件とともに)。あなたの特定の問題に依存するいくつかのアプローチや別のものを使用する方が良い場合は、正確な値E
を使用する必要があります。