q-learning

1熱

1答えて

私はQ-学習においてε-欲張り政策行動選択政策を実装したいと思います。ここでは多くの人々が、探査の減少率について次式、使用している ɛ= E ^（ - エン） N =エージェントの年齢 E =搾取パラメータしかし、この「n」は何を意味するのかはっきりしていませんか？特定の州 - 行動対への訪問回数であるか、それとも反復回数ですか？ありがとうございました

0熱

1答えて

強化学習における同じ状態の報酬が異なる

Chromeの恐竜ゲーム（オフライン時に再生できるゲーム）のQ-Learningを実装したいと思います。私は自分の状態を次の障害物までの距離、速度、次の障害物の大きさと定義しました。報酬としては、成功した障害物の数を使いたいと思っていましたが、同じ州で異なる即時報酬が発生する可能性があります。同じタイプの障害物がゲームの後半に再び出現する可能性がありますが、すでに障害物が通過しているため、それ

1熱

1答えて

パイ脳強化学習;状態の次元

私は、Pybrainパッケージを使用して強化学習と交通光シミュレーションを組み合わせるプロジェクトに取り組んでいます。私はチュートリアルを読んで、EnvironmentとTaskという独自のサブクラスを実装しました。私は自分の状態を、連続した値を持つベクタにして、各レーンで待っている車の数、レーンあたりの合計待ち時間などの情報を含むことができるようにしたいので、コントローラーとしてActionVa

1熱

2答えて

Q学習におけるイプシロン崩壊

強化学習アルゴリズムで最も重要な課題は、探査と開発のバランスを取ることです。私はおもちゃの問題で学習しているQを実行しようとしています。早いイプシロン崩壊が起こっていることに気づいています。エージェントがより多くの探査を行い、イプシロンの減衰が約0.999になるように、イプシロンを高く（0.9または1）選択しました。どのようにしてイプシロンの減衰を遅くするか、言い換えればエージェントが非常に

0熱

2答えて

学習を強化する：Q学習の練習後にハイパーパラメータ（？）を無視する必要がありますか？

学習者は訓練段階にあり、そこではエポックの束のためにQテーブルが更新されます。この段階では、Qテーブルはガンマ（割引率）、学習率（アルファ）で更新され、ランダムアクションレートでアクションが選択されます。報酬が安定しているいくつかの時代の後、私はこの「トレーニングが完了しました」と呼ぶことにしましょう。その後、これらのパラメータ（ガンマ、学習率など）を無視しなければならないのですか？私が意味す

1熱

1答えて

最大スコアを持つシーケンス？

私は、n状態S = {s1、s2、s3、... sn}を持ち、すべての遷移、すなわちT行列f.e. s1→s5 = 0.3、s4→s3 = 0.7、...等となる。 state-x（s_x）から始まるスコアリングされたシーケンス/パスを選択するために使用するアルゴリズムまたはプロシージャは何ですか？つの質問：無限に長いパスで、私は平均的に可能な状態として最高として選ぶようには、最高の次の状態を

1熱

1答えて

最適な行動選択をランダム化

私は自己運転用の自動車プログラムのための下のコードで作業しています。私は私のchoose_action関数に問題があります。エージェントは、以下のステップで最高のQ値を持つ行動の選択肢からランダムに行動を選択する必要があります。「他：アクション= maxQaction」しかし、私はそれが今それを書かれている方法を毎回同じ行動を選択するだけです。誰も最高のQ値の選択を無作為化する方法を提案する

1熱

2答えて

再生学習の報酬機能DQNによる曲線フィーバーゲーム

「Achtung Die Kurve」とも呼ばれる単純なバージョンのCurve Feverを作成しました。私はマシンにゲームを最適にプレイする方法を理解してほしい。 GoogleのTensorflowで作成されたいくつかのAtariゲームの例から、既存のDQNをコピーして少し修正しました。私は適切な報酬機能を理解するのに時間を費やしています。現在、私はこの報酬の設定を使用します。それはすべてのク

0熱

1答えて

大きな状態の作用空間を持つ動的環境における強化学習

私は7種類のペナルティ値を持つ500 * 500グリッドを持っています。私は、アクションスペースに11のアクションが含まれているRLエージェントを作成する必要があります。（左、右、上、下、4つの対角線方向、スピードアップ、スピードダウン、通常速度）。どうすればこの問題を解決できますか？選択された '実行されたアクション'の確率は0.8です。それ以外の場合は、ランダムなアクションが選択されます。

0熱

1答えて

未知の環境でQラーニングがどのように機能しますか？

Qラーニングは、インスタント報酬行列Rを使用して環境をモデル化します。それは、学習のために既知の行列Rを使用することを意味します。なぜ、Q学習は未知の環境で動作するのでしょうか？