reinforcement-learning

    0

    1答えて

    私はkeras-rl/examples/cem_cartpole.pyの例を見つけました。私は理解したいと思いますが、ドキュメントは見つかりません。 ライン memory = EpisodeParameterMemory(limit=1000, window_length=1) は何をしますか? limitとは何ですか、window_lengthとは何ですか?いずれかの/両方のパラメータを増加

    1

    1答えて

    すでに低い、損失は次のように示しhttps://imgur.com/a/Twacm そして、それは訓練だが、各ゲームの後に、それはですランダムプレイヤーとの戦い、加重マトリックスを持つプレイヤーのプレイ後、上下に移動: 基本的に私はオセロを学ぶことを学ぶ強化学習エージェントをやっています。 E-greedyを使用して、Tensorflow上のKerasを使用してリプレイと深いネットワークを体験して

    0

    1答えて

    たとえば、タイムステップtのステートは、実際にtとt-1のステートで作成できますか? S_t = [s_t, s_t-1] すなわちん近位ポリシーの最適化は、すでに状態履歴を組み込むか、それは州の暗黙の(またはどちらも)することができます。

    0

    1答えて

    私はQ-Learningを学び、OpenAI GymのFrozenLake-v0問題でQ-learnerを構築しようとしています。問題は16状態と4つの可能なアクションしか持たないので、それはかなり簡単ですが、私のアルゴリズムがQテーブルを正しく更新していないようです。 次は私のQ学習アルゴリズムである。そして、 import gym import numpy as np from gym i

    0

    1答えて

    私が知る限り、特定のポリシー\ piについては、時間差を学習すると、そのポリシー\ piに続く期待値が計算されますが、特定のポリシーを知っていることの意味は何ですか? 特定の環境に最適なポリシーを見つけてください。時間差学習を使って特定の\ piを行うのは何ですか?

    0

    1答えて

    現在、PyTorchを使用してREINFORCEアルゴリズムを実装しようとしています。私は報酬を割り引いた後に責任ある成果を集めることができるようにしたい。したがって、アクションのメモリが与えられた場合、インデックスのテンソルを作成し、Tensor.index_selectを使用しようとしますが、成功しません。誰も助けることができますか? rH = np.array(rH) # discounte

    0

    2答えて

    Q学習の一部として、目的は期待される効用を最大にすることです。私が知っている 読書ウィキペディア: https://en.wikipedia.org/wiki/Q-learningは、以下の状況で期待効用を説明しますそれは最終的に与えられる行動価値関数を学習することで動作します 与えられた状態で特定のアクションを取るの期待効用とその後最適なポリシーに従います。 Q-ラーニングの強みの1つは、 とい

    0

    1答えて

    私はtensorflowを使ってdeepQの実装を使ってCartPole-v0を解決していますが、出力は時々(全実行の40%)9に止まっています。 tf.set_random_seedでも、それでも出力が止まらないことは保証されません。これは私のコードです: from collections import deque import tensorflow as tf import numpy a

    0

    1答えて

    DQNは、ANYポリシーに従うことによって収集された経験的データから最適なポリシーを学習するために、オフポリシーRLを使用する。専門家、以前の非最適政策など を観察した経験は、フォームのデータの集まりです: (S1、A1、R2、S2) ここでr2は受信実際の報酬でありますa1を実行した直後。 経験は、フォームの教師付き学習の例を設定するために使用されています ネットINPUT:(S1、A1)、当期