これまでに読んだアルゴリズムはすべて、固定数のアクションを持つ単一のエージェントに適用されます。可変数の行動を考慮しながら決定を下すための強化学習アルゴリズムがありますか?たとえば、プレイヤーがN人の兵士をコントロールし、各兵士が条件に基づいてランダムな行動をとるコンピュータゲームで、RLアルゴリズムをどのように適用しますか?兵士が作成され殺害されると、利用可能な行動が絶えず変化しているため、グローバルな意思決定者(すなわち、「一般」)に対して一定数の行動を定式化することはできません。また、兵士の行動は、その直近の環境に基づいて条件付きであるため、兵士レベルで一定数の行動を策定することはできません。もし兵士が相手を見ないならば歩くことができるかもしれないが、10人の相手を見ると10人の対戦相手のうちの1人を攻撃して10の新しい可能なアクションがある。可変動作で強化学習
8
A
答えて
4
あなたの説明は何も珍しいことではありません。強化学習は、Markov Decision Processの価値関数を見つける方法です。 MDPでは、すべての州に独自の一連のアクションがあります。強化学習のアプリケーションを進めるには、問題にどのような状態、行動、報酬があるのかを明確に定義する必要があります。
0
いくつかの条件によって利用可能であるかどうかにかかわらず、各兵士にいくつかのアクションがある場合でも、これを固定アクションセットから選択としてモデル化できます。たとえば:
- は各兵士
- のアクションのフルセットのそれぞれについて、「利用価値」を作成し、所定の時間
可能なターゲットが複数ある場合は、ターゲット機能を追加パラメータとして使用するユーティリティ機能をモデル化し、評価関数を複数回(ターゲットごとに1つずつ)実行する点を除いて、同じ原則が適用されます。最高の「攻撃ユーティリティ」を持つターゲットを選択します。
関連する問題
- 1. 強化学習:ニューラルネット
- 2. 強化学習と動的プログラミング
- 3. 強化学習の無効な移動
- 4. C++強化学習ライブラリ
- 5. テトリスのための強化学習
- 6. 強化学習 - 生のピクセルから学ぶ
- 7. 教師あり学習、(ii)教師なし学習、(iii)補強学習
- 8. 強化学習でMDP設定が必要な理由
- 9. 強化学習で損失関数(MSVE)を実装する
- 10. 強化学習、なぜパフォーマンスが崩壊したのですか?
- 11. Tensorflow:学習可能な変数マスキング
- 12. ポリシーと価値機能の理解強化学習
- 13. 4列ゲームの強化学習のための最適アルゴリズム
- 14. 直接/間接および監視/非監督/強化学習
- 15. 自律ナビゲーションの強化学習を使用する
- 16. パイ脳強化学習;状態の次元
- 17. 強化学習のための簡単なインターフェイス
- 18. 強化学習における値の反復の基本ケース
- 19. 可変長シーケンスのシーケンス学習に対する奇妙な動作シーケンス
- 20. エリア学習の許可
- 21. 時系列の変動の学習
- 22. Scikit学習変換メソッド - 手動計算?
- 23. Coursera機械学習:グラデーションデサントベクトル化
- 24. 大きな状態の作用空間を持つ動的環境における強化学習
- 25. TensorFlowエスティメーターでの学習/再学習
- 26. ディープ学習ネットワークでフォワード伝搬信号を強化する方法は?
- 27. PyTorchでLSTMを使って強化学習を行う方法は?
- 28. 学習ベクトル量子化がmatlabでうまく動作しない
- 29. 強化学習における無限状態空間モデルの構築
- 30. 強化学習アルゴリズムのためのデータの効率的な供給
私が言ったように、兵士にはさまざまな行動があります。攻撃ターゲットをパラメータにすることは、どういう意味ですか? – Cerin
私は、RLアルゴリズムがあなたが余分な入力として検討しているターゲットまたは特定のアクションに関する情報を取るようにしています。その後、必要に応じて複数のターゲットやアクションに適用することができます。検討しているそれぞれのターゲット情報やアクション情報でアルゴリズムを再実行するだけです。 – mikera