共有統計オプティマイザを使用したTensorflow A3Cの実装

オープンソースのTensorflowベースの共有ベースの統計を使用したオプティマイザを使用するA3C強化学習アルゴリズムの実装はありますか？共有統計オプティマイザを使用したTensorflow A3Cの実装

*私はPyTorchとChainerバージョンのA3Cと共有RMSProp統計を知っています。 TF 1を見つけることに失敗しました。私が聞いてるのよ

Shared RMSPropセットアップは、元paperのSupp.7で説明されています

」...非同期最適化でRMSPropを適用するために1は、要素ごとの移動平均かどうかを決定しなければならない設定しますRMSPropと呼ばれる1つのバージョンでは、各スレッドは独自のGを維持しています。

...他のバージョン、我々は共有 RMSProp、ベクトルgはシャーですロックされずに非同期に更新されます。スレッド間統計情報を共有し、共有統計で...

... RMSPropをメモリ要件を減らすには、今度は勢いSGDよりも堅牢であるスレッドごとの統計でRMSProp、よりも堅牢である傾向がある。」

-1

メイントレーニング・ループがworker.py hereであり、観察が別々のスレッドで生成されますhere

2017-08-09 04:26:52

ヤロスラフでさらに参照するには、この実装を言及をありがとうございましたが、それは正確に話してa'm機能を持っていません。 Adamオプティマイザを使用して、ワーカーごとのグラディエント計算を行います。より具体的に質問を編集します。 –

MIY osudaのA3C実装（https://github.com/miyosuda/async_deep_reinforceにあります）は、トレーニングスレッド上で共有RMSProp統計を使用します。

2017-08-09 14:54:06 joabim

ありがとう！私はそのリポジトリを見落としました。 –

答えて