2017-03-07 9 views
0

Rock/Paper/Scissorsでブルートフォースを使わずにこのNew York TimesのAIを打ち負かすアルゴリズムですか?このNew York Timesよりも良いアルゴリズムRock/Paper/Scissors AI

(フラッシュはAIと遊ぶために有効にする必要があります)(ウェブサイトは常にAIあなたは、少なくとも5回プレイした後、その次の一手を選択する方法についての情報を提供します)

http://www.nytimes.com/interactive/science/rock-paper-scissors.html?_r=1& (ベテランモードで)私は、マシンを勉強しています私自身で学習し、私はかなり初心者です。 (ちょうど昨日始めた)。

私の友人は、彼らのMLクラスのMLテクニックを習得することなく上記の問題を解決するように指示されたと語った。私もそれをやりたいと思っていましたが、ブルートフォース以外の方法は考えられません。

トレーニングデータはAI 100以上で再生し、100以上のデータを収集します。このデータを使用してアルゴリズムを作成すると、プログラムを使用しているときより多くのゲームを勝ち取ることができます。超初心者なので、何も考えられません。

ヒント? おかげ

答えて

0

ノービスモード

だから、サイトの良いところは、それはアイデアがすべての動きの背後にあることを示しているされています。あなたの動きの歴史を見てあなたの行動を予測しようとします。 だからあなたの移動履歴には、以下のことができます: (ロック= R、はさみ= Sと紙= P)

r p s p p s s r r p s 

は、今では歴史を見て、r p sの再発を見つけようとします。これは歴史の冒頭でこれを見つけます。r p s p p s r r p sそして、その後にpをプレイしたことがわかります。したがって、コンピュータの次の移動はsになります。

それはように小さな文字列(p s)を見て、文字列(r p s)の再発を見つけるカント場合。複数の再発が見つかった場合は、最も多く再発したものを選択します(またはランダムな選択肢であっても)。

あなたは、サイト上とまったく同じプログラムを書くことができます。あなたは自分の動きを予測しようとします(サイトのプログラムのように)。 したがって、たとえば(r p s)とすると、コンピュータはpの移動を予測するため、その知識でsを選択します。ベテランモードで

ベテランモード

AIはあなたの次の動きを予測するために、200000のゲームの歴史を使用しています。だから、AIがやっているのとまったく同じように、100ゲームの歴史を使用することを打ち負かそうとしています。

現在の試合履歴(100試合)の履歴を見て、特定の種類(例:r s p r)の再発を見つけようとします。そして、あなたはコンピュータの責任がそれにあったものを見ます。今あなたはコンピュータに勝つようにそれに応じて選ぶ。もちろん、コンピュータは2つの選択肢(そして長い歴史から選択するより多くのサンプル)の間で無作為化された応答を使用するため、常に勝つことはありません。しかし、これはあなたが得る勝利の量を増やすはずです。

私も機械学習の経験はありませんが、これはプログラムを作成する私の戦略です。

こちらがお役に立てば幸いです。

あなたは彼らがそれらを結合打つことができない場合;) 乾杯

+0

だから、答えてくれてありがとう、あなたはAIを操作するために私に言っているが、1つの問題があります。 AIはすでに多くのことを学んだわけではなく、AIが既に過去200,000回の演奏を記憶しているので、私の手で操作することさえありません。あなたが言っていることはうまくいくでしょう私が私からすべてを学ぶ初心者のAIで遊んでいても、この場合、すでに200,000のプレイが保存されているベテランAIと遊んでいます。 – Rikenm

+0

あなたは結果を予測しようとする歴史としてyoure 100ゲームを使用するよりも。 AIと同じ方法です。 Aiがサイトで使用するアイデアを再度使用します。 –

+0

回答を更新しました@Rikenm –

関連する問題