2012-01-08 23 views
0

4行ゲームの強化学習に最適なアルゴリズムとは何ですか? 私はプレーするRLアルゴリズムのいずれかを使用します行のゲームで4構築したい:私は、Javaを使用しています考慮使用するための最良のものは何 Q-学習、のMinMaxなど4列ゲームの強化学習のための最適アルゴリズム

を。

答えて

0

MinMaxは、そのゲームにはかなり良いです。本当の疑問は、特定の動きの「価値」が何であるかを判断するあなたのユーリスティックな機能がどれくらい良いかということです。

+0

ヒューリスティック関数を作成するにはどうすればよいですか? – Vadiklk

0

のMinMaxは、通常、強化学習アルゴリズムではないと考えられるが、それはおそらく、「最良」の接続4.ために(あなたはそれによって何を意味するかに依存する)である

接続4はsolved(多くにされていますさまざまなサイズのボード)を30年近く使用しています。このソルバは、Fhourstonesと呼ばれるプロセッサベンチマークとしても使用されており、Java(およびC)のsourceは無料で利用できます。

あなたの目的は、強化、Q学習(表形式で)について学ぶことで、より現代的な強化の一部は、このようなディープニューラルネットワーク(DQN)またはアクション・アドバンテージ俳優評論家(A3Cを使用してQ学習などのアルゴリズムを学習した場合)これらのすべてがConnect 4にうまく適用できることは間違いありません.Barto & Suttonの強化学習などの良い本をお勧めします。執筆時点では、draft of the 2nd editionはPDF形式で自由に入手できます。

しかし、あなたの目的が単に最高のプレイヤーを持つことだけであれば、あなたはフーストーンの完璧な遊びを打ち負かすのに苦労します。

関連する問題