私は、チェス、ドラフト、ティックタック、トー、2048、スーパーマリオのようなゲームは、複数のプレイを必要とする一般的なゲームでは、完了するための動きです。バックプロパゲーションだけでニューラルネットワークにターンベースのゲームを教えることはできますか?
は、私は1つの遺伝的アルゴリズムを使用することができますかなり確信している、しかし、私は、純粋なバックプロパゲーションとそれを訓練する方法があるかどうかを知るために喜びました。私は目標値として何を使用しますか?
私は彼がゲームが終了するまでの移動の数を再生し、目標値としての最終結果を使用させることを考えていましたが、私はそれが唯一の最後の動きを訓練するだろう、それはないだろうと思いますか?
他のアプローチは、すべての動きを訓練することですが、その後の目標値は何でしょうか?複数の有効な選択肢を移動させることができますが、確かに長期的には十分な選択肢があります。私はそれを試行錯誤して選択する方法は?
は、バックプロパゲーションを達成するだけのことができないのですか?