2017-11-16 3 views
0

私のツリーが十分に深くなって終端ノードが選択され始めているときは、ゼロ移動「プレイアウト」を実行して結果をバックプロパゲーションする必要があると仮定していましたが、IEEE survey of MCTS methodsは選択ステップは "最も緊急の拡張可能なノード"を見つけるべきであり、私は反例を見つけることができません。私は何とかそれらを排除するはずですか?ここで正しいことは何ですか?モンテカルロツリー検索でターミナルノードを処理する方法は?

答えて

1

選択フェーズで実際に端末ノードに到達した場合は、展開と再生をスキップしても意味がなくなり、その端末ノードの値をまっすぐに伝搬します。

リンクした論文から、これは6ページからは明らかではありませんが、9ページのアルゴリズム2で明らかです。この擬似コードでは、TreePolicy()関数は終端ノードvを返すことになります。ノードはDefaultPolicy()関数に渡され、その関数は報酬を直接返します(その関数のwhileループの条件は決して満たされません)。

アルゴリズムを直感的に理解していて、無限の処理時間で最適な値の推定値を保証できるようにしたい場合は、これが望ましいと考えることもできます。無限の処理時間(無限のシミュレーション数)では、「最高の」端末状態からの値を無限にバックアップする必要があるため、ルートに近いノードのバックアップからの平均値も、それらの値に収束します制限内の最良のリーフノード値。

関連する問題