reinforcement-learning

0熱

1答えて

Chromeの恐竜ゲーム（オフライン時に再生できるゲーム）のQ-Learningを実装したいと思います。私は自分の状態を次の障害物までの距離、速度、次の障害物の大きさと定義しました。報酬としては、成功した障害物の数を使いたいと思っていましたが、同じ州で異なる即時報酬が発生する可能性があります。同じタイプの障害物がゲームの後半に再び出現する可能性がありますが、すでに障害物が通過しているため、それ

2熱

1答えて

強化学習有限の状態とアクションで与えられたポリシーの総数

強化学習の初心者です。それは些細な質問3つの状態{X、Y、Z}と2つのアクションを仮定に思えるかもしれない{A、B} なぜポリシーの総数/探索空間は2^3 = 8 は x - y - z (actions a,b) x - z - y (actions a,b) y - x - z (actions a,b) y - z - x (actions a,b) z - x - y (acti

3熱

1答えて

2人のプレーヤーのゲームでQ値を更新するには

1人のプレーヤーのゲームでは、Q値の更新はかなり直感的です。現在の状態と将来の状態は、単一のプレーヤーの戦略に依存しますが、2人のプレーヤーの場合はそうではありません。対戦相手が勝ち、ゲームが終了するシナリオを考えてみましょう。 Q値はどのように更新されますか？

0熱

1答えて

は、私はそれを理解するために多くの時間を費やす必要があり人気のある深いQ学習プログラム

https://github.com/yenchenlin/DeepLearningFlappyBird/blob/master/deep_q_network.py#L82 のこの行を理解することはできません。なぜtf.multiplyを使用するのですか？この乗算演算をサポートする数学を見つけることができません。

0熱

1答えて

はどのように私は他の環境を使用することができます

OpenAIのuniverse素晴らしいライブラリがコード # coding: utf-8 import gym import universe # register the universe environments env = gym.make('flashgames.DuskDrive-v0') env.configure(remotes=1) # automatically cr

0熱

2答えて

学習を強化する：Q学習の練習後にハイパーパラメータ（？）を無視する必要がありますか？

学習者は訓練段階にあり、そこではエポックの束のためにQテーブルが更新されます。この段階では、Qテーブルはガンマ（割引率）、学習率（アルファ）で更新され、ランダムアクションレートでアクションが選択されます。報酬が安定しているいくつかの時代の後、私はこの「トレーニングが完了しました」と呼ぶことにしましょう。その後、これらのパラメータ（ガンマ、学習率など）を無視しなければならないのですか？私が意味す

1熱

2答えて

再生学習の報酬機能DQNによる曲線フィーバーゲーム

「Achtung Die Kurve」とも呼ばれる単純なバージョンのCurve Feverを作成しました。私はマシンにゲームを最適にプレイする方法を理解してほしい。 GoogleのTensorflowで作成されたいくつかのAtariゲームの例から、既存のDQNをコピーして少し修正しました。私は適切な報酬機能を理解するのに時間を費やしています。現在、私はこの報酬の設定を使用します。それはすべてのク

0熱

1答えて

大きな状態の作用空間を持つ動的環境における強化学習

私は7種類のペナルティ値を持つ500 * 500グリッドを持っています。私は、アクションスペースに11のアクションが含まれているRLエージェントを作成する必要があります。（左、右、上、下、4つの対角線方向、スピードアップ、スピードダウン、通常速度）。どうすればこの問題を解決できますか？選択された '実行されたアクション'の確率は0.8です。それ以外の場合は、ランダムなアクションが選択されます。

0熱

1答えて

強化学習 - 生のピクセルから学ぶ

私はRLにSuttonの本で紹介されました。この知識をさらに高めるために、エージェントが生のピクセルからどのように学習し、H2Oを使用した例を実装しようとしているかを調べたいと思います。私はJava APIを使いたいです。スパークリングウォーターは私が使用すべき分布ですか？生のピクセルをh2oにストリームするにはどうすればよいですか？たとえば、ピンポンゲームを使ってh2o RLエージェントを学

0熱

1答えて

OpenAIジム：いつリセットが必要ですか？

私は例と私自身のコードを実行することができますが、私はOpenAIジムAPI、特にEnv.resetの背後にある実際のセマンティクス/期待についてもっと興味があります。いつリセットが必要ですか？各エピソードの終わりに？または環境を作成した後でのみですか？私はむしろ各エピソードの前に意味があると思うが、私はそれを明示的に読むことができなかった！