2016-09-04 8 views

答えて

3

(Q-ラーニングが想定している)への無限のアクセスがであると仮定している世界では、過剰訓練という概念はありません。状態空間ベースの「純粋な」Q-learningを使用しないで、Deep Q-learningのようないくつかの近似値を使用すると、これは大きくオーバートラベルされます。このプロパティの欠如は、(あなたの問題が非常に単純/小さい場合を除いて)通常は満たされない非現実的な仮定から生じます。

+0

あなたの丁寧な対応に感謝します。わかった –

関連する問題