私が知る限り、特定のポリシー\ piについては、時間差を学習すると、そのポリシー\ piに続く期待値が計算されますが、特定のポリシーを知っていることの意味は何ですか?時間差学習を使う点は何ですか?
特定の環境に最適なポリシーを見つけてください。時間差学習を使って特定の\ piを行うのは何ですか?
私が知る限り、特定のポリシー\ piについては、時間差を学習すると、そのポリシー\ piに続く期待値が計算されますが、特定のポリシーを知っていることの意味は何ですか?時間差学習を使う点は何ですか?
特定の環境に最適なポリシーを見つけてください。時間差学習を使って特定の\ piを行うのは何ですか?
あなたが言ったように、特定のポリシーの価値関数を見つけることは、目標が最適なポリシーを見つける一般的なケースではあまり役に立ちません。しかし、SARSA
やQ-learning
のようないくつかの古典的なアルゴリズムは、generalized policy iteration
の特別なケースとして見なすことができます。最も難しい部分は、ポリシーの価値関数を見つけることです。価値関数が分かれば、より良い方針を見つけて、最近計算された方針の価値関数などを再度見つけることは簡単です。このプロセスは、いくつかの条件が与えられれば、最適なポリシーに収束します。
要約すると、temporal difference learning
は、最適なポリシーを見つけることを可能にする他のalgorthimの重要なステップです。