2017-08-09 7 views
0

オープンソースのTensorflowベースの共有ベースの統計を使用したオプティマイザを使用するA3C強化学習アルゴリズムの実装はありますか?共有統計オプティマイザを使用したTensorflow A3Cの実装

*私はPyTorchChainerバージョンのA3Cと共有RMSProp統計を知っています。 TF 1を見つけることに失敗しました。私が聞いてるのよ

Shared RMSPropセットアップは、元paperのSupp.7で説明されています

」...非同期最適化 でRMSPropを適用するために1は、要素ごとの移動平均かどうかを決定しなければならない設定しますRMSPropと呼ばれる1つのバージョンでは、 各スレッドは独自のGを維持しています。

...他のバージョン、我々は共有 RMSProp、ベクトルgはシャーですロックされずに非同期に更新されます。スレッド間 統計情報を共有し、共有統計で...

... RMSPropをメモリ要件を減らすには、今度は勢いSGDよりも堅牢であるスレッドごとの統計でRMSProp、 よりも堅牢である傾向がある。」

答えて

-1

ここ実装 https://github.com/openai/universe-starter-agent

メイントレーニング・ループがworker.py hereであり、観察が別々のスレッドで生成されますhere

+0

ヤロスラフでさらに参照するには、この実装を言及をありがとうございましたが、それは正確に話してa'm機能を持っていません。 Adamオプティマイザを使用して、ワーカーごとのグラディエント計算を行います。より具体的に質問を編集します。 –

関連する問題