reinforcement-learning

0熱

1答えて

以下は、ポリシー勾配algoを設計するために使用するコードの一部です。テンソルフロー： self.activation = tf.contrib.layers.fully_connected(inputs= state,num_outputs =\ num_actions,activation_fn=tf.nn.relu6,weights_initializer=tf.contrib.layer

2熱

1答えて

Open AI Gymでポリシー反復メソッドを実装する

私は現在、Sutton & Bartoから「強化学習」を読んでいます。私はいくつかの方法を自分自身で書こうとしています。ポリシーの繰り返しは、私が現在取り組んでいるものです。私は、カートポールや連続マウンテンカーなどの簡単な問題でOpenAI Gymを使用しようとしています。しかし、ポリシーの反復では、状態と報酬行列の間の遷移行列の両方が必要です。 OpenAIジムで構築した「環境」から入手で

0熱

1答えて

keras-rlの例は、常に出力層で線形活性化を選択するのはなぜですか？

私は補強学習の完全な初心者です。 keras-rlエージェントの出力レイヤーのアクティブ化機能の選択について質問があります。 keras-rl（https://github.com/matthiasplappert/keras-rl/tree/master/examples）が提供するすべての例では、出力レイヤーで線形活性化関数を選択します。どうしてこれなの？異なる活性化機能を使用すると、どのよう

2熱

1答えて

強化学習、なぜパフォーマンスが崩壊したのですか？

私はViZDoomプラットフォームのエージェントをA3Cアルゴリズムのdeadly_corridorシナリオとTITAN X GPUサーバーのTensorFlowに訓練しようとしていますが、約2日以上のトレーニング後にパフォーマンスが低下しました。あなたが次の画像で見ることができるように。 6人の廊下で悪魔やエージェントが目的地に着くとベストを取得するには、少なくとも5人の悪魔を殺す必要があります

0熱

2答えて

共有統計オプティマイザを使用したTensorflow A3Cの実装

オープンソースのTensorflowベースの共有ベースの統計を使用したオプティマイザを使用するA3C強化学習アルゴリズムの実装はありますか？ *私はPyTorchとChainerバージョンのA3Cと共有RMSProp統計を知っています。 TF 1を見つけることに失敗しました。私が聞いてるのよ Shared RMSPropセットアップは、元paperのSupp.7で説明されています」...非同期最

1熱

2答えて

私たちが教師付きNN分類を行うとき、なぜクロスエントロピーを訓練し、分類エラーではないのですか？

標準的な教師あり分類の設定：サンプルの束があり、それぞれ正しいラベルがN個です。 N個の出力を有するNNを構築し、それらをソフトマックスで確率に変換すると、各NN出力と対応する真のラベルとの間の平均値はcross-entropyであり、が真ラベルで0である1-hotベクトルと表される。次に、この勾配に従って、この損失を最適化します。分類エラーは、モデルの品質を測定するためにのみ使用されます。私は

1熱

1答えて

Webサービスに訓練された強化学習モデルを導入する方法

訓練を受けたAIエージェントを使用して簡単なゲームをプレイできるWebサイトを作成する予定です。訓練された強化学習モデルをWebサービスに配備する方法は？テンソルフローを使用できますか？ Andrej Karapathyのconvnet.jsフレームワークはこのために便利ですか？

0熱

1答えて

関数近似とq学習

私は行動価値近似関数でq学習を実装しようとしています。私はアルゴリズムをテストするためにopenai-gymと "MountainCar-v0"環境を使用しています。私の問題は、収束せず、目標を全く見つけられないことです。基本的に、近似は次の2つの機能を提供します：位置と速度、ワンホットエンコーディングの3つのアクションの1つ：0 - > [1,0,0]、1 - > [ 0,1,0]及び2 -