誰でも明確な方法を教えてください(私はどこにも明確な例が見つからないため)MCTSアルゴリズムは2番目のプレーヤーを繰り返します。モンテカルロツリー検索交互
私はちょうどそれが例えばP1の移動ごとに再生されているように見えると思われるすべて。 私は1つのエージェントの手順を理解していますが、P2をどこに配置するのかわからないことはありません。
は基本的に私が期待する:各ITER用:
選択ノードPlayer1が Player1を拡大
選択ノードPlayer2 展開するプレーヤー2
展開
次 backpropogate iter
これは正しいですか?誰かがそれを示すいくつかの擬似コードを書き留めてください。反復的にも再帰的にも気にしない。
ありがとうございました。
さらなるアドバイスをいただき、ありがとうございます。もう一度考えてみましょう。 – progan01
私はまだここでは確信していません。私は繰り返しが、このように見なければならないことを考えていた。各\t ITER player1ため は \tプレイヤー1は \t player2を拡張選択 \t player2を選択 \t backpropogate 次ITER – progan01