othello

    0

    1答えて

    オセロをプレイできる小さなAIプログラムを作成しました。私が使用しているアルゴリズム(MCTS UTC)には、探査と搾取の比率を調整できるパラメータがあります。これは0から10の範囲の単一の浮動小数点値です(無限大でも大きな値は意味をなさない) このパラメータの値が異なると、アルゴリズム自体を簡単に再生させることができます。これは私に2つの値のどちらが良いかという考えを与えるでしょう。 このパラメ

    1

    2答えて

    申し訳ありませんが、画像は正直なところです。 私は最後の日と私のプロジェクトの準備のためのビットのために剪定ミニマックス木とアルファデータ上で読んでいます。これはcでOthelloの実装です。 私はそれについてたくさんのリソースを読んでおり、多くの質問を受けることがわかっています。 私が評価関数を始める前に、これを完全に理解したいと思います。 添付の画像では、機能Min_Node(pos)とMax

    1

    1答えて

    すでに低い、損失は次のように示しhttps://imgur.com/a/Twacm そして、それは訓練だが、各ゲームの後に、それはですランダムプレイヤーとの戦い、加重マトリックスを持つプレイヤーのプレイ後、上下に移動: 基本的に私はオセロを学ぶことを学ぶ強化学習エージェントをやっています。 E-greedyを使用して、Tensorflow上のKerasを使用してリプレイと深いネットワークを体験して

    2

    1答えて

    基本的に私は反転ゲームを作成しようとしています。まず、ボタンと属性IDが付いたボードを作成したので、必要に応じて後でアクセスすることができます。今私は各ボタンにゲームピースを描画しようとしていますが、私はそれが悪い考えであり、nullを返すので、ボタンのgetGraphics()はできません。ボード、セル、ピースは、MVCパターンを使って開発しているので、私はすべてのエンティティを別々にしておきた

    3

    1答えて

    私はOthelloの時間差学習エージェントを構築しようとしています。残りの実装は意図したとおりに実行されているように見えますが、私のネットワークを訓練するために使用される損失機能が不思議です。 Suttonの著書「強化学習:はじめに」では、平均二乗誤差(MSVE)が標準損失関数として提示されていますが、これは基本的に平均二乗誤差にonポリシー分布を掛けたものです(すべての状態(onPolicyDi