1
Q-Learningアルゴリズムは、固有の最適ポリシーのQに収束することが証明されています。それで、Q-Learningアルゴリズムが過剰になることはないと結論づけるのは正しいですか?Q-Learningアルゴリズムが過剰になることはありますか?
Q-Learningアルゴリズムは、固有の最適ポリシーのQに収束することが証明されています。それで、Q-Learningアルゴリズムが過剰になることはないと結論づけるのは正しいですか?Q-Learningアルゴリズムが過剰になることはありますか?
(Q-ラーニングが想定している)への無限のアクセスがであると仮定している世界では、過剰訓練という概念はありません。状態空間ベースの「純粋な」Q-learningを使用しないで、Deep Q-learningのようないくつかの近似値を使用すると、これは大きくオーバートラベルされます。このプロパティの欠如は、(あなたの問題が非常に単純/小さい場合を除いて)通常は満たされない非現実的な仮定から生じます。
あなたの丁寧な対応に感謝します。わかった –