「Achtung Die Kurve」とも呼ばれる単純なバージョンのCurve Feverを作成しました。私はマシンにゲームを最適にプレイする方法を理解してほしい。 GoogleのTensorflowで作成されたいくつかのAtariゲームの例から、既存のDQNをコピーして少し修正しました。再生学習の報酬機能DQNによる曲線フィーバーゲーム
私は適切な報酬機能を理解するのに時間を費やしています。現在、私はこの報酬の設定を使用します。それはすべてのクラッシュ
ため
- 0.1これは正しいアプローチですか?値を微調整する必要はありますか?それとも全く別のアプローチが必要ですか?
あなたはDQNを動作させることができましたか? – ericwenn
はい、私は以下のような得点を実装しました。 –
死にかけて-1、殺害で+1。生き残るために小さな定数を使用しましたか? – ericwenn