PythonでOpenAI-gymのMountainCar-v0環境を使用する場合、doneの値は200のタイムステップ後にtrueになります。何故ですか?目標状態に達していないため、エピソードを実行すべきではありません。200回のタイムステップ後にエピソードが行われるのはなぜですか(ジムの環境MountainCar)?
import gym
env = gym.make('MountainCar-v0')
env.reset()
for _ in range(300):
env.render()
res = env.step(env.action_space.sample())
print(_)
print(res[2])
車がフラグに達してからforループを解除するまで、ステップメソッドを実行します。これは可能ですか?
n_episodes = 10
done = False
for i in range(n_episodes):
env.reset()
while done == False:
env.render()
state, reward, done, _ = env.step(env.action_space.sample())