現在、TensorFlowに深い二重Q学習アルゴリズムを実装しています。 NumPy配列に基づいて実装された経験リプレイバッファがあります。しかしながら、いくつかの性能分析は、feed_dictを使用してNumPy配列からグラフにデータを供給することは非常に非効率的であることを示している。これは、ドキュメントhttps://www.tensorflow.org/performance/performance_guideでも指摘されています。給餌をより効率的に行うことができる持っているよう強化学習アルゴリズムのためのデータの効率的な供給
は、誰もが提案を持っていますか?静的データセットでは、レコードリーダーなどの入力パイプラインを使用してフィードを実行できます。しかし、リプレイバッファーは時間とともに変化し、このタイプの餌はより困難になります。
どれ回答は大歓迎です、ありがとう!