テトリスのための強化学習

-2

私はそれを行う方法の要点を得ていますが、テトリスが（状態、値）のペアをどのように保存するか分かりません。メモリのために。たぶんあなたは異なる州を1つにマップすることができますか、別のトリックがありますか？それとも間違っているのですか？テトリスのための強化学習

出典

2017-01-22 7Orion7

テーブルベースのRLは大きな状態空間に拡張されません。完全に正しいです。これは、の近似が、非常に単純で、状態を値にマッピングする線形モデルのように、深い（時には再帰的な）ニューラルネット（Deep Q-Networksなど）のようにかなり複雑なものです。言い換えれば、マッピング状態 - >値の代わりに、Q値（例えばQ値）をQ（状態|パラメータ）=値とすることによって、これら2つの間の依存性をモデル化して機能をモデル化し、 /値の対が観察された。これはメモリだけではないことに注意する価値があります。実際に表形式のアプローチを行っている場合は、のすべての状態を確認してください。は、機能的な/近似的なアプローチで、良いモデルを持っています。利用可能な状態空間の構造。

出典

2017-01-22 15:32:48 lejlot

私は、自分の関数のパラメータに合わせてトレーニングデータとして観測された状態/値のペアを使用しますか？そして、テトリスの場合、報酬は各ゲームの終わりにのみ、またはピースが着陸した後でなければなりませんか？テトリスでは、悪い動きを見るのは比較的簡単なので、私はすべての作品の後に考えています。 – 7Orion7

近似を行う方法の詳細については、Suttonの本のようなものを参照してください。いくつか小さな問題があり、使用しているrlメソッドに依存します。報酬の観点からは、あなたが達成したいことに依存します。テトリスを演じるものを「ただ」求めていますか？次に、あなたの専門知識に基づいて報酬を形作ることができます。私は間に何かを主張するでしょう - 得点に応じて報酬を与えます。スコアはあなたがラインをクリアするときに与えられます、これは十分に良いはずです。 – lejlot

テトリスのための強化学習

答えて

関連する問題