可変動作で強化学習

これまでに読んだアルゴリズムはすべて、固定数のアクションを持つ単一のエージェントに適用されます。可変数の行動を考慮しながら決定を下すための強化学習アルゴリズムがありますか？たとえば、プレイヤーがN人の兵士をコントロールし、各兵士が条件に基づいてランダムな行動をとるコンピュータゲームで、RLアルゴリズムをどのように適用しますか？兵士が作成され殺害されると、利用可能な行動が絶えず変化しているため、グローバルな意思決定者（すなわち、「一般」）に対して一定数の行動を定式化することはできません。また、兵士の行動は、その直近の環境に基づいて条件付きであるため、兵士レベルで一定数の行動を策定することはできません。もし兵士が相手を見ないならば歩くことができるかもしれないが、10人の相手を見ると10人の対戦相手のうちの1人を攻撃して10の新しい可能なアクションがある。可変動作で強化学習

出典

2011-03-07 Cerin

あなたの説明は何も珍しいことではありません。強化学習は、Markov Decision Processの価値関数を見つける方法です。 MDPでは、すべての州に独自の一連のアクションがあります。強化学習のアプリケーションを進めるには、問題にどのような状態、行動、報酬があるのかを明確に定義する必要があります。

出典

2011-07-28 21:46:12

いくつかの条件によって利用可能であるかどうかにかかわらず、各兵士にいくつかのアクションがある場合でも、これを固定アクションセットから選択としてモデル化できます。たとえば：

は各兵士
のアクションのフルセットのそれぞれについて、「利用価値」を作成し、所定の時間

では利用できないこれらのアクションを無視して、最高の価値のアクションを選択します。

可能なターゲットが複数ある場合は、ターゲット機能を追加パラメータとして使用するユーティリティ機能をモデル化し、評価関数を複数回（ターゲットごとに1つずつ）実行する点を除いて、同じ原則が適用されます。最高の「攻撃ユーティリティ」を持つターゲットを選択します。

出典

2011-03-07 11:15:27 mikera

私が言ったように、兵士にはさまざまな行動があります。攻撃ターゲットをパラメータにすることは、どういう意味ですか？ – Cerin

私は、RLアルゴリズムがあなたが余分な入力として検討しているターゲットまたは特定のアクションに関する情報を取るようにしています。その後、必要に応じて複数のターゲットやアクションに適用することができます。検討しているそれぞれのターゲット情報やアクション情報でアルゴリズムを再実行するだけです。 – mikera

答えて

関連する問題