reinforcement-learning

    0

    1答えて

    以下は、ポリシー勾配algoを設計するために使用するコードの一部です。テンソルフロー: self.activation = tf.contrib.layers.fully_connected(inputs= state,num_outputs =\ num_actions,activation_fn=tf.nn.relu6,weights_initializer=tf.contrib.layer

    2

    1答えて

    私は現在、Sutton & Bartoから「強化学習」を読んでいます。私はいくつかの方法を自分自身で書こうとしています。 ポリシーの繰り返しは、私が現在取り組んでいるものです。私は、カートポールや連続マウンテンカーなどの簡単な問題でOpenAI Gymを使用しようとしています。 しかし、ポリシーの反復では、状態と報酬行列の間の遷移行列の両方が必要です。 OpenAIジムで構築した「環境」から入手で

    0

    1答えて

    私は補強学習の完全な初心者です。 keras-rlエージェントの出力レイヤーのアクティブ化機能の選択について質問があります。 keras-rl(https://github.com/matthiasplappert/keras-rl/tree/master/examples)が提供するすべての例では、出力レイヤーで線形活性化関数を選択します。どうしてこれなの?異なる活性化機能を使用すると、どのよう

    2

    1答えて

    私はViZDoomプラットフォームのエージェントをA3Cアルゴリズムのdeadly_corridorシナリオとTITAN X GPUサーバーのTensorFlowに訓練しようとしていますが、約2日以上のトレーニング後にパフォーマンスが低下しました。あなたが次の画像で見ることができるように。 6人の廊下で悪魔やエージェントが目的地に着くとベストを取得するには、少なくとも5人の悪魔を殺す必要があります

    0

    2答えて

    オープンソースのTensorflowベースの共有ベースの統計を使用したオプティマイザを使用するA3C強化学習アルゴリズムの実装はありますか? *私はPyTorchとChainerバージョンのA3Cと共有RMSProp統計を知っています。 TF 1を見つけることに失敗しました。私が聞いてるのよ Shared RMSPropセットアップは、元paperのSupp.7で説明されています 」...非同期最

    1

    2答えて

    標準的な教師あり分類の設定:サンプルの束があり、それぞれ正しいラベルがN個です。 N個の出力を有するNNを構築し、それらをソフトマックスで確率に変換すると、各NN出力と対応する真のラベルとの間の平均値はcross-entropyであり、が真ラベルで0である1-hotベクトルと表される。次に、この勾配に従って、この損失を最適化します。分類エラーは、モデルの品質を測定するためにのみ使用されます。 私は

    1

    1答えて

    訓練を受けたAIエージェントを使用して簡単なゲームをプレイできるWebサイトを作成する予定です。訓練された強化学習モデルをWebサービスに配備する方法は? テンソルフローを使用できますか? Andrej Karapathyのconvnet.jsフレームワークはこのために便利ですか?

    0

    1答えて

    私は行動価値近似関数でq学習を実装しようとしています。私はアルゴリズムをテストするためにopenai-gymと "MountainCar-v0"環境を使用しています。私の問題は、収束せず、目標を全く見つけられないことです。 基本的に、近似は次の2つの機能を提供します:位置と速度、ワンホットエンコーディングの3つのアクションの1つ:0 - > [1,0,0]、1 - > [ 0,1,0]及び2 -