Q学習の一部として、目的は期待される効用を最大にすることです。私が知っているユーティリティとは何ですか?
読書ウィキペディア: https://en.wikipedia.org/wiki/Q-learningは、以下の状況で期待効用を説明します
それは最終的に与えられる行動価値関数を学習することで動作します与えられた状態で特定のアクションを取るの期待効用とその後最適なポリシーに従います。
Q-ラーニングの強みの1つは、 という環境のモデルを必要とせずに、利用可能なアクションの期待される有用性を比較することができることです。
しかし、実用性は何を意味するのでしょうか?
utility
を最大化するとき、正確には何が最大化されていますか?