2

私は、tic tac toeのゲームの中間状態でminimaxアルゴリズムの動作を理解しようとしています。しかし、私はそうすることができません。私はmin maxアルゴリズムがあらゆるステップでプレーヤーにとって最良の状態を返すことを理解しています。状態はゲームの最終段階で、このMinimaxアルゴリズムTic Tac Toe中間状態

States at the end of the game

のようだった場合、プレーヤーのための利点または最大のポイントにつながる状態が最適な構成であることを理解することは簡単です。この例では、葉にスコア「1」を持つ状態が最良の状態であることがわかります。しかし、中間段階で、またはゲームが始まるとどうなりますか。

States at the beginning or an Intermediate state

たちはそもそもまたはプレイヤーが特定の位置を再生することにより、これらの状態に行くことができる3つのポジションを持っていたとします。そして、これらのポジションはさらに、木の下のさらなるボード構成につながる。開始/開始ノードからの3つの枝の各々は、葉ノードでは「1」、葉ノードでは「-1」で示される敗北、場合によっては「0」で示される敗北となる。

ここでミニマックスアルゴリズムとは何ですか? 初期ノードの後に​​ミニマックスが返す位置または分岐はどれですか?

答えて

0

上記のように、minimaxアルゴリズムは、hereが動きの極端な結果を調べます。スコアを最大化することを目指すプレイヤー(Tic-Tac-Toeの場合、最大スコアは1)に対して、移動の価値はすべての可能な結果の最大値であり、アルゴリズムは移動の価値を最大にすることを目的としています。

同様に、スコアを最小限にすることを目的とするプレイヤーにとって、アルゴリズムはminimaxl値(Tic-Tac-Toeでは-1)で移動を選択することを目指しています。

より正式には、移動の値は、移動によって端末のゲーム状態になる(つまり、移動がゲームツリーの葉に達する)場合の最終的なゲーム状態の値です。移動がゲームツリーの内部ノードになる場合は、ゲームツリーのレベルが偶数か奇数かに依存します(移動は交替するプレイヤーによって行われるため)。再帰的に定義されます。偶数レベルの場合、移動の値は逐次移動の達成可能な最小値であり、奇数レベルの場合、移動の値は、連続移動の最大値である(またはその逆で、正確な定義はレベル、どのプレイヤーがどの値を目指すか)。

以下の推論に基づいて、minimaxアルゴリズムはゲームツリー全体を評価します。動きを評価するには、動きを作って相手のポジションを取って、同じ評価をします。つまり、動きを評価し、相手のポジションをもう一度取ることです。合計で、これは相手が最適にプレーするという仮定の下で最適である動きを決定する結果となる。ミニマムアルゴリズムを使用して自分の動きを評価することによって、自分の選択した動きのエミュレーションによって実現される。