強化学習アルゴリズムのためのデータの効率的な供給

現在、TensorFlowに深い二重Q学習アルゴリズムを実装しています。 NumPy配列に基づいて実装された経験リプレイバッファがあります。しかしながら、いくつかの性能分析は、feed_dictを使用してNumPy配列からグラフにデータを供給することは非常に非効率的であることを示している。これは、ドキュメントhttps://www.tensorflow.org/performance/performance_guideでも指摘されています。給餌をより効率的に行うことができる持っているよう強化学習アルゴリズムのためのデータの効率的な供給

は、誰もが提案を持っていますか？静的データセットでは、レコードリーダーなどの入力パイプラインを使用してフィードを実行できます。しかし、リプレイバッファーは時間とともに変化し、このタイプの餌はより困難になります。

どれ回答は大歓迎です、ありがとう！

出典

2017-02-24 pfredriksen

短い答えはです。あなたのデータが最小セットであり、ユニークであれば、スピードアップする方法はありません。あなたのデータにいくつかの冗長性や不要な装飾がある場合は、それをモデルに納める前に削除してください。すでに行っており、各バッチでデータが一意であると仮定すると、何もありません。）あなたができること。

つまり、ネットワークのパフォーマンスを向上させるためにできることがあります。

あなたのQ学習アルゴリズムは、基本的には、閾値過去の累積誤差など、ネットワークまで、学習フェーズをしないと言うこれ、this paperごとに向上させることができるかもしれません。
トレーニングセットの一部を再利用したり再生したりする場合は、ロードステージを使用してトレーニングデータをGPUに読み込んで素早く再生することができます。

出典

2017-06-19 20:15:00 Wontonimo

強化学習アルゴリズムのためのデータの効率的な供給

答えて

関連する問題