16

私は、強化学習設定でいくつかのタスクを実行するのに必要なマウスの動きを学習するエージェントを取得しようとしています。学習)。継続的な*アクション*スペースで動作するようにQ-ラーニングを一般化する

私はQ-ラーニングテクニックを使用したいと考えていますが、a way to extend this method to continuous state spacesが見つかりましたが、連続したアクションスペースで問題を解決する方法を理解できないようです。

私はすべてのマウスの動きを特定の大きさと特定の数の異なる方向に強制することができますが、アクションを離散化する合理的な方法であれば、巨大なアクションスペースが得られます。標準のQ-learningはエージェントがすべてのアクションを評価する必要があるため、このような近似は実用的な意味では問題を解決しません。

答えて

7

この問題を処理する一般的な方法は、actor-critic methodsです。これらは自然な連続動作空間に拡張されます。近似を使って作業するときは、基本的なQラーニングが分岐する可能性がありますが、まだ使用したい場合は、"Applications of the self-organising map to reinforcement learning"のように自己組織化マップと組み合わせてみてください。このペーパーには、役に立つと思われる参考文献もいくつか含まれています。

+0

ああ、これらのサウンドスポットライトです。私がそれらを試して、彼らが期待するように彼らが働くならあなたの答えを受け入れるでしょう。 – zergylord

3

あなたがしていることに対して、私はあなたが連続した行動空間で働く必要はないと思っています。物理的なマウスは連続した空間内を移動しますが、カーソルは内部的に(通常はピクセル単位で)離散的にしか移動しませんので、エージェントのパフォーマンスに影響を与えないようです。状態空間はまだかなり大きいが、有限で離散的である。

+0

これは離散近似に関して言及した問題を紹介しています(ただし、私のドメインは技術的に分かれていますが、可能なすべての座標対を考えることはできません)。 – zergylord

+0

私は@templatetypedefに同意します。離散アクションは、連続した状態空間で使用できます。離散的なアクションは、動作するのがはるかに良いです。 – danelliottster

9

強化学習を継続的な操作に拡張する方法は数多くあります。 1つの方法は、俳優評論の方法を使用することです。別の方法は、ポリシー勾配法を使用することです。

異なる方法のかなり広範な説明がオンラインで入手でき、以下の論文、で見つけることができ

Reinforcement Learning in Continuous State and Action Spaces

+1

Actor-criticメソッドは、ポリシー勾配メソッドの一種です。パラメータ化されたアクタはポリシーを実装し、パラメータは批評家によって推定されたアクタのパフォーマンスの勾配の方向にシフトされます。 – HelloGoodbye

+0

現在、指定されたリンクが壊れています。 –

+0

壊れたリンクには「hasselt」と書かれているので、おそらくこれはこのリンクです。http://oai.cwi.nl/oai/asset/19689/19689B.pdf – dasWesen

11

今年の早送り、DeepMindから人々が対処するための深い強化学習俳優・評論家の方法を提案しています連続状態とアクション空間。これは、決定論的なポリシー勾配と呼ばれる手法に基づいています。論文Continuous control with deep reinforcement learningと一部のimplementationsを参照してください。

+4

ええ、彼ら本当に普及した強化学習をしています - 今では、継続的な行動を処理するためのかなりの方法があります!最も重要なのは、同じq-ラーニングアルゴリズムを核としているため、正規化された優位関数を使ったQラーニングだと思います。これは、アクション値を2次形式にするだけで、貪欲なアクションを分析的に得ることができます。 https://arxiv.org/pdf/1603.00748.pdf – zergylord

+0

また、Atariの論文https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf – Shaun

+0

をチェックしてみることもできます。これは素晴らしかったです。ありがとうございました。 –

関連する問題