2017-01-22 11 views
-2

私はそれを行う方法の要点を得ていますが、テトリスが(状態、値)のペアをどのように保存するか分かりません。メモリのために。たぶんあなたは異なる州を1つにマップすることができますか、別のトリックがありますか?それとも間違っているのですか?テトリスのための強化学習

答えて

0

テーブルベースのRLは大きな状態空間に拡張されません。完全に正しいです。これは、の近似が、非常に単純で、状態を値にマッピングする線形モデルのように、深い(時には再帰的な)ニューラルネット(Deep Q-Networksなど)のようにかなり複雑なものです。言い換えれば、マッピング状態 - >値の代わりに、Q値(例えばQ値)をQ(状態|パラメータ)=値とすることによって、これら2つの間の依存性をモデル化して機能をモデル化し、 /値の対が観察された。これはメモリだけではないことに注意する価値があります。実際に表形式のアプローチを行っている場合は、のすべての状態を確認してください。は、機能的な/近似的なアプローチで、良いモデルを持っています。利用可能な状態空間の構造。

+0

私は、自分の関数のパラメータに合わせてトレーニングデータとして観測された状態/値のペアを使用しますか?そして、テトリスの場合、報酬は各ゲームの終わりにのみ、またはピースが着陸した後でなければなりませんか?テトリスでは、悪い動きを見るのは比較的簡単なので、私はすべての作品の後に考えています。 – 7Orion7

+0

近似を行う方法の詳細については、Suttonの本のようなものを参照してください。いくつか小さな問題があり、使用しているrlメソッドに依存します。報酬の観点からは、あなたが達成したいことに依存します。テトリスを演じるものを「ただ」求めていますか?次に、あなたの専門知識に基づいて報酬を形作ることができます。私は間に何かを主張するでしょう - 得点に応じて報酬を与えます。スコアはあなたがラインをクリアするときに与えられます、これは十分に良いはずです。 – lejlot

関連する問題