4列ゲームの強化学習のための最適アルゴリズム

4行ゲームの強化学習に最適なアルゴリズムとは何ですか？私はプレーするRLアルゴリズムのいずれかを使用します行のゲームで4構築したい：私は、Javaを使用しています考慮使用するための最良のものは何 Q-学習、のMinMaxなど4列ゲームの強化学習のための最適アルゴリズム

を。

出典

2012-01-08 Vadiklk

MinMaxは、そのゲームにはかなり良いです。本当の疑問は、特定の動きの「価値」が何であるかを判断するあなたのユーリスティックな機能がどれくらい良いかということです。

出典

2012-01-08 08:19:56

ヒューリスティック関数を作成するにはどうすればよいですか？ – Vadiklk

のMinMaxは、通常、強化学習アルゴリズムではないと考えられるが、それはおそらく、「最良」の接続4.ために（あなたはそれによって何を意味するかに依存する）である

接続4はsolved（多くにされていますさまざまなサイズのボード）を30年近く使用しています。このソルバは、Fhourstonesと呼ばれるプロセッサベンチマークとしても使用されており、Java（およびC）のsourceは無料で利用できます。

あなたの目的は、強化、Q学習（表形式で）について学ぶことで、より現代的な強化の一部は、このようなディープニューラルネットワーク（DQN）またはアクション・アドバンテージ俳優評論家（A3Cを使用してQ学習などのアルゴリズムを学習した場合）これらのすべてがConnect 4にうまく適用できることは間違いありません.Barto & Suttonの強化学習などの良い本をお勧めします。執筆時点では、draft of the 2nd editionはPDF形式で自由に入手できます。

しかし、あなたの目的が単に最高のプレイヤーを持つことだけであれば、あなたはフーストーンの完璧な遊びを打ち負かすのに苦労します。

出典

2017-08-29 21:41:07

4列ゲームの強化学習のための最適アルゴリズム

答えて

関連する問題