2017-11-29 8 views
0

Q学習の一部として、目的は期待される効用を最大にすることです。私が知っているユーティリティとは何ですか?

読書ウィキペディア: https://en.wikipedia.org/wiki/Q-learningは、以下の状況で期待効用を説明します

それは最終的に与えられる行動価値関数を学習することで動作します

与えられた状態で特定のアクションを取るの期待効用とその後最適なポリシーに従います。

Q-ラーニングの強みの1つは、 という環境のモデルを必要とせずに、利用可能なアクションの期待される有用性を比較することができることです。

しかし、実用性は何を意味するのでしょうか?

utilityを最大化するとき、正確には何が最大化されていますか?

答えて

0

この場合、「ユーティリティ」は機能性または有用性を意味します。したがって、「最大限の機能性」または「最大限の有用性」。グーグルに単語を差し込む

はあなたを与える:

、便利な収益性の高い、または有益であることの状態を。一般的に言えば

0

(@Robは彼の応答に掲載される)、ユーティリティは、収益性の高いまたは有益な意味。 Q-学習文脈では

あなたはWikipediaの説明で読むと、ユーティリティは、行動価値関数と(彼らは同義語とみなすことができる)関連閉じられています。ここで、ポリシーπのアクション値機能は、エージェントがsのアクションでaを実行し、ポリシーπに従うと、エージェントが取得しようとしているリターン(長期報酬)の推定値です。したがって、ユーティリティを最大化すると、実際にエージェントが得る報酬を最大にしています。報酬は目標を達成するために定義されているので、あなたは達成される目標の「量」を最大にしています。

関連する問題