Use Closed-Form Policy to Play FrozenLake8x8-v1¶

In [1]:
import sys
import logging
import itertools

import numpy as np
np.random.seed(0)
import gym

logging.basicConfig(level=logging.INFO,
        format='%(asctime)s [%(levelname)s] %(message)s',
        stream=sys.stdout, datefmt='%H:%M:%S')
In [2]:
env = gym.make('FrozenLake8x8-v1')
for key in vars(env.spec):
    logging.info('%s: %s', key, vars(env.spec)[key])
for key in vars(env.unwrapped):
    logging.info('%s: %s', key, vars(env.unwrapped)[key])
00:00:00 [INFO] id: FrozenLake8x8-v1
00:00:00 [INFO] entry_point: gym.envs.toy_text:FrozenLakeEnv
00:00:00 [INFO] reward_threshold: 0.85
00:00:00 [INFO] nondeterministic: False
00:00:00 [INFO] max_episode_steps: 200
00:00:00 [INFO] order_enforce: True
00:00:00 [INFO] _kwargs: {'map_name': '8x8'}
00:00:00 [INFO] _env_name: FrozenLake8x8
00:00:00 [INFO] desc: [[b'S' b'F' b'F' b'F' b'F' b'F' b'F' b'F']
 [b'F' b'F' b'F' b'F' b'F' b'F' b'F' b'F']
 [b'F' b'F' b'F' b'H' b'F' b'F' b'F' b'F']
 [b'F' b'F' b'F' b'F' b'F' b'H' b'F' b'F']
 [b'F' b'F' b'F' b'H' b'F' b'F' b'F' b'F']
 [b'F' b'H' b'H' b'F' b'F' b'F' b'H' b'F']
 [b'F' b'H' b'F' b'F' b'H' b'F' b'H' b'F']
 [b'F' b'F' b'F' b'H' b'F' b'F' b'F' b'G']]
00:00:00 [INFO] nrow: 8
00:00:00 [INFO] ncol: 8
00:00:00 [INFO] reward_range: (0, 1)
00:00:00 [INFO] P: {0: {0: [(0.3333333333333333, 0, 0.0, False), (0.3333333333333333, 0, 0.0, False), (0.3333333333333333, 8, 0.0, False)], 1: [(0.3333333333333333, 0, 0.0, False), (0.3333333333333333, 8, 0.0, False), (0.3333333333333333, 1, 0.0, False)], 2: [(0.3333333333333333, 8, 0.0, False), (0.3333333333333333, 1, 0.0, False), (0.3333333333333333, 0, 0.0, False)], 3: [(0.3333333333333333, 1, 0.0, False), (0.3333333333333333, 0, 0.0, False), (0.3333333333333333, 0, 0.0, False)]}, 1: {0: [(0.3333333333333333, 1, 0.0, False), (0.3333333333333333, 0, 0.0, False), (0.3333333333333333, 9, 0.0, False)], 1: [(0.3333333333333333, 0, 0.0, False), (0.3333333333333333, 9, 0.0, False), (0.3333333333333333, 2, 0.0, False)], 2: [(0.3333333333333333, 9, 0.0, False), (0.3333333333333333, 2, 0.0, False), (0.3333333333333333, 1, 0.0, False)], 3: [(0.3333333333333333, 2, 0.0, False), (0.3333333333333333, 1, 0.0, False), (0.3333333333333333, 0, 0.0, False)]}, 2: {0: [(0.3333333333333333, 2, 0.0, False), (0.3333333333333333, 1, 0.0, False), (0.3333333333333333, 10, 0.0, False)], 1: [(0.3333333333333333, 1, 0.0, False), (0.3333333333333333, 10, 0.0, False), (0.3333333333333333, 3, 0.0, False)], 2: [(0.3333333333333333, 10, 0.0, False), (0.3333333333333333, 3, 0.0, False), (0.3333333333333333, 2, 0.0, False)], 3: [(0.3333333333333333, 3, 0.0, False), (0.3333333333333333, 2, 0.0, False), (0.3333333333333333, 1, 0.0, False)]}, 3: {0: [(0.3333333333333333, 3, 0.0, False), (0.3333333333333333, 2, 0.0, False), (0.3333333333333333, 11, 0.0, False)], 1: [(0.3333333333333333, 2, 0.0, False), (0.3333333333333333, 11, 0.0, False), (0.3333333333333333, 4, 0.0, False)], 2: [(0.3333333333333333, 11, 0.0, False), (0.3333333333333333, 4, 0.0, False), (0.3333333333333333, 3, 0.0, False)], 3: [(0.3333333333333333, 4, 0.0, False), (0.3333333333333333, 3, 0.0, False), (0.3333333333333333, 2, 0.0, False)]}, 4: {0: [(0.3333333333333333, 4, 0.0, False), (0.3333333333333333, 3, 0.0, False), (0.3333333333333333, 12, 0.0, False)], 1: [(0.3333333333333333, 3, 0.0, False), (0.3333333333333333, 12, 0.0, False), (0.3333333333333333, 5, 0.0, False)], 2: [(0.3333333333333333, 12, 0.0, False), (0.3333333333333333, 5, 0.0, False), (0.3333333333333333, 4, 0.0, False)], 3: [(0.3333333333333333, 5, 0.0, False), (0.3333333333333333, 4, 0.0, False), (0.3333333333333333, 3, 0.0, False)]}, 5: {0: [(0.3333333333333333, 5, 0.0, False), (0.3333333333333333, 4, 0.0, False), (0.3333333333333333, 13, 0.0, False)], 1: [(0.3333333333333333, 4, 0.0, False), (0.3333333333333333, 13, 0.0, False), (0.3333333333333333, 6, 0.0, False)], 2: [(0.3333333333333333, 13, 0.0, False), (0.3333333333333333, 6, 0.0, False), (0.3333333333333333, 5, 0.0, False)], 3: [(0.3333333333333333, 6, 0.0, False), (0.3333333333333333, 5, 0.0, False), (0.3333333333333333, 4, 0.0, False)]}, 6: {0: [(0.3333333333333333, 6, 0.0, False), (0.3333333333333333, 5, 0.0, False), (0.3333333333333333, 14, 0.0, False)], 1: [(0.3333333333333333, 5, 0.0, False), (0.3333333333333333, 14, 0.0, False), (0.3333333333333333, 7, 0.0, False)], 2: [(0.3333333333333333, 14, 0.0, False), (0.3333333333333333, 7, 0.0, False), (0.3333333333333333, 6, 0.0, False)], 3: [(0.3333333333333333, 7, 0.0, False), (0.3333333333333333, 6, 0.0, False), (0.3333333333333333, 5, 0.0, False)]}, 7: {0: [(0.3333333333333333, 7, 0.0, False), (0.3333333333333333, 6, 0.0, False), (0.3333333333333333, 15, 0.0, False)], 1: [(0.3333333333333333, 6, 0.0, False), (0.3333333333333333, 15, 0.0, False), (0.3333333333333333, 7, 0.0, False)], 2: [(0.3333333333333333, 15, 0.0, False), (0.3333333333333333, 7, 0.0, False), (0.3333333333333333, 7, 0.0, False)], 3: [(0.3333333333333333, 7, 0.0, False), (0.3333333333333333, 7, 0.0, False), (0.3333333333333333, 6, 0.0, False)]}, 8: {0: [(0.3333333333333333, 0, 0.0, False), (0.3333333333333333, 8, 0.0, False), (0.3333333333333333, 16, 0.0, False)], 1: [(0.3333333333333333, 8, 0.0, False), (0.3333333333333333, 16, 0.0, False), (0.3333333333333333, 9, 0.0, False)], 2: [(0.3333333333333333, 16, 0.0, False), (0.3333333333333333, 9, 0.0, False), (0.3333333333333333, 0, 0.0, False)], 3: [(0.3333333333333333, 9, 0.0, False), (0.3333333333333333, 0, 0.0, False), (0.3333333333333333, 8, 0.0, False)]}, 9: {0: [(0.3333333333333333, 1, 0.0, False), (0.3333333333333333, 8, 0.0, False), (0.3333333333333333, 17, 0.0, False)], 1: [(0.3333333333333333, 8, 0.0, False), (0.3333333333333333, 17, 0.0, False), (0.3333333333333333, 10, 0.0, False)], 2: [(0.3333333333333333, 17, 0.0, False), (0.3333333333333333, 10, 0.0, False), (0.3333333333333333, 1, 0.0, False)], 3: [(0.3333333333333333, 10, 0.0, False), (0.3333333333333333, 1, 0.0, False), (0.3333333333333333, 8, 0.0, False)]}, 10: {0: [(0.3333333333333333, 2, 0.0, False), (0.3333333333333333, 9, 0.0, False), (0.3333333333333333, 18, 0.0, False)], 1: [(0.3333333333333333, 9, 0.0, False), (0.3333333333333333, 18, 0.0, False), (0.3333333333333333, 11, 0.0, False)], 2: [(0.3333333333333333, 18, 0.0, False), (0.3333333333333333, 11, 0.0, False), (0.3333333333333333, 2, 0.0, False)], 3: [(0.3333333333333333, 11, 0.0, False), (0.3333333333333333, 2, 0.0, False), (0.3333333333333333, 9, 0.0, False)]}, 11: {0: [(0.3333333333333333, 3, 0.0, False), (0.3333333333333333, 10, 0.0, False), (0.3333333333333333, 19, 0.0, True)], 1: [(0.3333333333333333, 10, 0.0, False), (0.3333333333333333, 19, 0.0, True), (0.3333333333333333, 12, 0.0, False)], 2: [(0.3333333333333333, 19, 0.0, True), (0.3333333333333333, 12, 0.0, False), (0.3333333333333333, 3, 0.0, False)], 3: [(0.3333333333333333, 12, 0.0, False), (0.3333333333333333, 3, 0.0, False), (0.3333333333333333, 10, 0.0, False)]}, 12: {0: [(0.3333333333333333, 4, 0.0, False), (0.3333333333333333, 11, 0.0, False), (0.3333333333333333, 20, 0.0, False)], 1: [(0.3333333333333333, 11, 0.0, False), (0.3333333333333333, 20, 0.0, False), (0.3333333333333333, 13, 0.0, False)], 2: [(0.3333333333333333, 20, 0.0, False), (0.3333333333333333, 13, 0.0, False), (0.3333333333333333, 4, 0.0, False)], 3: [(0.3333333333333333, 13, 0.0, False), (0.3333333333333333, 4, 0.0, False), (0.3333333333333333, 11, 0.0, False)]}, 13: {0: [(0.3333333333333333, 5, 0.0, False), (0.3333333333333333, 12, 0.0, False), (0.3333333333333333, 21, 0.0, False)], 1: [(0.3333333333333333, 12, 0.0, False), (0.3333333333333333, 21, 0.0, False), (0.3333333333333333, 14, 0.0, False)], 2: [(0.3333333333333333, 21, 0.0, False), (0.3333333333333333, 14, 0.0, False), (0.3333333333333333, 5, 0.0, False)], 3: [(0.3333333333333333, 14, 0.0, False), (0.3333333333333333, 5, 0.0, False), (0.3333333333333333, 12, 0.0, False)]}, 14: {0: [(0.3333333333333333, 6, 0.0, False), (0.3333333333333333, 13, 0.0, False), (0.3333333333333333, 22, 0.0, False)], 1: [(0.3333333333333333, 13, 0.0, False), (0.3333333333333333, 22, 0.0, False), (0.3333333333333333, 15, 0.0, False)], 2: [(0.3333333333333333, 22, 0.0, False), (0.3333333333333333, 15, 0.0, False), (0.3333333333333333, 6, 0.0, False)], 3: [(0.3333333333333333, 15, 0.0, False), (0.3333333333333333, 6, 0.0, False), (0.3333333333333333, 13, 0.0, False)]}, 15: {0: [(0.3333333333333333, 7, 0.0, False), (0.3333333333333333, 14, 0.0, False), (0.3333333333333333, 23, 0.0, False)], 1: [(0.3333333333333333, 14, 0.0, False), (0.3333333333333333, 23, 0.0, False), (0.3333333333333333, 15, 0.0, False)], 2: [(0.3333333333333333, 23, 0.0, False), (0.3333333333333333, 15, 0.0, False), (0.3333333333333333, 7, 0.0, False)], 3: [(0.3333333333333333, 15, 0.0, False), (0.3333333333333333, 7, 0.0, False), (0.3333333333333333, 14, 0.0, False)]}, 16: {0: [(0.3333333333333333, 8, 0.0, False), (0.3333333333333333, 16, 0.0, False), (0.3333333333333333, 24, 0.0, False)], 1: [(0.3333333333333333, 16, 0.0, False), (0.3333333333333333, 24, 0.0, False), (0.3333333333333333, 17, 0.0, False)], 2: [(0.3333333333333333, 24, 0.0, False), (0.3333333333333333, 17, 0.0, False), (0.3333333333333333, 8, 0.0, False)], 3: [(0.3333333333333333, 17, 0.0, False), (0.3333333333333333, 8, 0.0, False), (0.3333333333333333, 16, 0.0, False)]}, 17: {0: [(0.3333333333333333, 9, 0.0, False), (0.3333333333333333, 16, 0.0, False), (0.3333333333333333, 25, 0.0, False)], 1: [(0.3333333333333333, 16, 0.0, False), (0.3333333333333333, 25, 0.0, False), (0.3333333333333333, 18, 0.0, False)], 2: [(0.3333333333333333, 25, 0.0, False), (0.3333333333333333, 18, 0.0, False), (0.3333333333333333, 9, 0.0, False)], 3: [(0.3333333333333333, 18, 0.0, False), (0.3333333333333333, 9, 0.0, False), (0.3333333333333333, 16, 0.0, False)]}, 18: {0: [(0.3333333333333333, 10, 0.0, False), (0.3333333333333333, 17, 0.0, False), (0.3333333333333333, 26, 0.0, False)], 1: [(0.3333333333333333, 17, 0.0, False), (0.3333333333333333, 26, 0.0, False), (0.3333333333333333, 19, 0.0, True)], 2: [(0.3333333333333333, 26, 0.0, False), (0.3333333333333333, 19, 0.0, True), (0.3333333333333333, 10, 0.0, False)], 3: [(0.3333333333333333, 19, 0.0, True), (0.3333333333333333, 10, 0.0, False), (0.3333333333333333, 17, 0.0, False)]}, 19: {0: [(1.0, 19, 0, True)], 1: [(1.0, 19, 0, True)], 2: [(1.0, 19, 0, True)], 3: [(1.0, 19, 0, True)]}, 20: {0: [(0.3333333333333333, 12, 0.0, False), (0.3333333333333333, 19, 0.0, True), (0.3333333333333333, 28, 0.0, False)], 1: [(0.3333333333333333, 19, 0.0, True), (0.3333333333333333, 28, 0.0, False), (0.3333333333333333, 21, 0.0, False)], 2: [(0.3333333333333333, 28, 0.0, False), (0.3333333333333333, 21, 0.0, False), (0.3333333333333333, 12, 0.0, False)], 3: [(0.3333333333333333, 21, 0.0, False), (0.3333333333333333, 12, 0.0, False), (0.3333333333333333, 19, 0.0, True)]}, 21: {0: [(0.3333333333333333, 13, 0.0, False), (0.3333333333333333, 20, 0.0, False), (0.3333333333333333, 29, 0.0, True)], 1: [(0.3333333333333333, 20, 0.0, False), (0.3333333333333333, 29, 0.0, True), (0.3333333333333333, 22, 0.0, False)], 2: [(0.3333333333333333, 29, 0.0, True), (0.3333333333333333, 22, 0.0, False), (0.3333333333333333, 13, 0.0, False)], 3: [(0.3333333333333333, 22, 0.0, False), (0.3333333333333333, 13, 0.0, False), (0.3333333333333333, 20, 0.0, False)]}, 22: {0: [(0.3333333333333333, 14, 0.0, False), (0.3333333333333333, 21, 0.0, False), (0.3333333333333333, 30, 0.0, False)], 1: [(0.3333333333333333, 21, 0.0, False), (0.3333333333333333, 30, 0.0, False), (0.3333333333333333, 23, 0.0, False)], 2: [(0.3333333333333333, 30, 0.0, False), (0.3333333333333333, 23, 0.0, False), (0.3333333333333333, 14, 0.0, False)], 3: [(0.3333333333333333, 23, 0.0, False), (0.3333333333333333, 14, 0.0, False), (0.3333333333333333, 21, 0.0, False)]}, 23: {0: [(0.3333333333333333, 15, 0.0, False), (0.3333333333333333, 22, 0.0, False), (0.3333333333333333, 31, 0.0, False)], 1: [(0.3333333333333333, 22, 0.0, False), (0.3333333333333333, 31, 0.0, False), (0.3333333333333333, 23, 0.0, False)], 2: [(0.3333333333333333, 31, 0.0, False), (0.3333333333333333, 23, 0.0, False), (0.3333333333333333, 15, 0.0, False)], 3: [(0.3333333333333333, 23, 0.0, False), (0.3333333333333333, 15, 0.0, False), (0.3333333333333333, 22, 0.0, False)]}, 24: {0: [(0.3333333333333333, 16, 0.0, False), (0.3333333333333333, 24, 0.0, False), (0.3333333333333333, 32, 0.0, False)], 1: [(0.3333333333333333, 24, 0.0, False), (0.3333333333333333, 32, 0.0, False), (0.3333333333333333, 25, 0.0, False)], 2: [(0.3333333333333333, 32, 0.0, False), (0.3333333333333333, 25, 0.0, False), (0.3333333333333333, 16, 0.0, False)], 3: [(0.3333333333333333, 25, 0.0, False), (0.3333333333333333, 16, 0.0, False), (0.3333333333333333, 24, 0.0, False)]}, 25: {0: [(0.3333333333333333, 17, 0.0, False), (0.3333333333333333, 24, 0.0, False), (0.3333333333333333, 33, 0.0, False)], 1: [(0.3333333333333333, 24, 0.0, False), (0.3333333333333333, 33, 0.0, False), (0.3333333333333333, 26, 0.0, False)], 2: [(0.3333333333333333, 33, 0.0, False), (0.3333333333333333, 26, 0.0, False), (0.3333333333333333, 17, 0.0, False)], 3: [(0.3333333333333333, 26, 0.0, False), (0.3333333333333333, 17, 0.0, False), (0.3333333333333333, 24, 0.0, False)]}, 26: {0: [(0.3333333333333333, 18, 0.0, False), (0.3333333333333333, 25, 0.0, False), (0.3333333333333333, 34, 0.0, False)], 1: [(0.3333333333333333, 25, 0.0, False), (0.3333333333333333, 34, 0.0, False), (0.3333333333333333, 27, 0.0, False)], 2: [(0.3333333333333333, 34, 0.0, False), (0.3333333333333333, 27, 0.0, False), (0.3333333333333333, 18, 0.0, False)], 3: [(0.3333333333333333, 27, 0.0, False), (0.3333333333333333, 18, 0.0, False), (0.3333333333333333, 25, 0.0, False)]}, 27: {0: [(0.3333333333333333, 19, 0.0, True), (0.3333333333333333, 26, 0.0, False), (0.3333333333333333, 35, 0.0, True)], 1: [(0.3333333333333333, 26, 0.0, False), (0.3333333333333333, 35, 0.0, True), (0.3333333333333333, 28, 0.0, False)], 2: [(0.3333333333333333, 35, 0.0, True), (0.3333333333333333, 28, 0.0, False), (0.3333333333333333, 19, 0.0, True)], 3: [(0.3333333333333333, 28, 0.0, False), (0.3333333333333333, 19, 0.0, True), (0.3333333333333333, 26, 0.0, False)]}, 28: {0: [(0.3333333333333333, 20, 0.0, False), (0.3333333333333333, 27, 0.0, False), (0.3333333333333333, 36, 0.0, False)], 1: [(0.3333333333333333, 27, 0.0, False), (0.3333333333333333, 36, 0.0, False), (0.3333333333333333, 29, 0.0, True)], 2: [(0.3333333333333333, 36, 0.0, False), (0.3333333333333333, 29, 0.0, True), (0.3333333333333333, 20, 0.0, False)], 3: [(0.3333333333333333, 29, 0.0, True), (0.3333333333333333, 20, 0.0, False), (0.3333333333333333, 27, 0.0, False)]}, 29: {0: [(1.0, 29, 0, True)], 1: [(1.0, 29, 0, True)], 2: [(1.0, 29, 0, True)], 3: [(1.0, 29, 0, True)]}, 30: {0: [(0.3333333333333333, 22, 0.0, False), (0.3333333333333333, 29, 0.0, True), (0.3333333333333333, 38, 0.0, False)], 1: [(0.3333333333333333, 29, 0.0, True), (0.3333333333333333, 38, 0.0, False), (0.3333333333333333, 31, 0.0, False)], 2: [(0.3333333333333333, 38, 0.0, False), (0.3333333333333333, 31, 0.0, False), (0.3333333333333333, 22, 0.0, False)], 3: [(0.3333333333333333, 31, 0.0, False), (0.3333333333333333, 22, 0.0, False), (0.3333333333333333, 29, 0.0, True)]}, 31: {0: [(0.3333333333333333, 23, 0.0, False), (0.3333333333333333, 30, 0.0, False), (0.3333333333333333, 39, 0.0, False)], 1: [(0.3333333333333333, 30, 0.0, False), (0.3333333333333333, 39, 0.0, False), (0.3333333333333333, 31, 0.0, False)], 2: [(0.3333333333333333, 39, 0.0, False), (0.3333333333333333, 31, 0.0, False), (0.3333333333333333, 23, 0.0, False)], 3: [(0.3333333333333333, 31, 0.0, False), (0.3333333333333333, 23, 0.0, False), (0.3333333333333333, 30, 0.0, False)]}, 32: {0: [(0.3333333333333333, 24, 0.0, False), (0.3333333333333333, 32, 0.0, False), (0.3333333333333333, 40, 0.0, False)], 1: [(0.3333333333333333, 32, 0.0, False), (0.3333333333333333, 40, 0.0, False), (0.3333333333333333, 33, 0.0, False)], 2: [(0.3333333333333333, 40, 0.0, False), (0.3333333333333333, 33, 0.0, False), (0.3333333333333333, 24, 0.0, False)], 3: [(0.3333333333333333, 33, 0.0, False), (0.3333333333333333, 24, 0.0, False), (0.3333333333333333, 32, 0.0, False)]}, 33: {0: [(0.3333333333333333, 25, 0.0, False), (0.3333333333333333, 32, 0.0, False), (0.3333333333333333, 41, 0.0, True)], 1: [(0.3333333333333333, 32, 0.0, False), (0.3333333333333333, 41, 0.0, True), (0.3333333333333333, 34, 0.0, False)], 2: [(0.3333333333333333, 41, 0.0, True), (0.3333333333333333, 34, 0.0, False), (0.3333333333333333, 25, 0.0, False)], 3: [(0.3333333333333333, 34, 0.0, False), (0.3333333333333333, 25, 0.0, False), (0.3333333333333333, 32, 0.0, False)]}, 34: {0: [(0.3333333333333333, 26, 0.0, False), (0.3333333333333333, 33, 0.0, False), (0.3333333333333333, 42, 0.0, True)], 1: [(0.3333333333333333, 33, 0.0, False), (0.3333333333333333, 42, 0.0, True), (0.3333333333333333, 35, 0.0, True)], 2: [(0.3333333333333333, 42, 0.0, True), (0.3333333333333333, 35, 0.0, True), (0.3333333333333333, 26, 0.0, False)], 3: [(0.3333333333333333, 35, 0.0, True), (0.3333333333333333, 26, 0.0, False), (0.3333333333333333, 33, 0.0, False)]}, 35: {0: [(1.0, 35, 0, True)], 1: [(1.0, 35, 0, True)], 2: [(1.0, 35, 0, True)], 3: [(1.0, 35, 0, True)]}, 36: {0: [(0.3333333333333333, 28, 0.0, False), (0.3333333333333333, 35, 0.0, True), (0.3333333333333333, 44, 0.0, False)], 1: [(0.3333333333333333, 35, 0.0, True), (0.3333333333333333, 44, 0.0, False), (0.3333333333333333, 37, 0.0, False)], 2: [(0.3333333333333333, 44, 0.0, False), (0.3333333333333333, 37, 0.0, False), (0.3333333333333333, 28, 0.0, False)], 3: [(0.3333333333333333, 37, 0.0, False), (0.3333333333333333, 28, 0.0, False), (0.3333333333333333, 35, 0.0, True)]}, 37: {0: [(0.3333333333333333, 29, 0.0, True), (0.3333333333333333, 36, 0.0, False), (0.3333333333333333, 45, 0.0, False)], 1: [(0.3333333333333333, 36, 0.0, False), (0.3333333333333333, 45, 0.0, False), (0.3333333333333333, 38, 0.0, False)], 2: [(0.3333333333333333, 45, 0.0, False), (0.3333333333333333, 38, 0.0, False), (0.3333333333333333, 29, 0.0, True)], 3: [(0.3333333333333333, 38, 0.0, False), (0.3333333333333333, 29, 0.0, True), (0.3333333333333333, 36, 0.0, False)]}, 38: {0: [(0.3333333333333333, 30, 0.0, False), (0.3333333333333333, 37, 0.0, False), (0.3333333333333333, 46, 0.0, True)], 1: [(0.3333333333333333, 37, 0.0, False), (0.3333333333333333, 46, 0.0, True), (0.3333333333333333, 39, 0.0, False)], 2: [(0.3333333333333333, 46, 0.0, True), (0.3333333333333333, 39, 0.0, False), (0.3333333333333333, 30, 0.0, False)], 3: [(0.3333333333333333, 39, 0.0, False), (0.3333333333333333, 30, 0.0, False), (0.3333333333333333, 37, 0.0, False)]}, 39: {0: [(0.3333333333333333, 31, 0.0, False), (0.3333333333333333, 38, 0.0, False), (0.3333333333333333, 47, 0.0, False)], 1: [(0.3333333333333333, 38, 0.0, False), (0.3333333333333333, 47, 0.0, False), (0.3333333333333333, 39, 0.0, False)], 2: [(0.3333333333333333, 47, 0.0, False), (0.3333333333333333, 39, 0.0, False), (0.3333333333333333, 31, 0.0, False)], 3: [(0.3333333333333333, 39, 0.0, False), (0.3333333333333333, 31, 0.0, False), (0.3333333333333333, 38, 0.0, False)]}, 40: {0: [(0.3333333333333333, 32, 0.0, False), (0.3333333333333333, 40, 0.0, False), (0.3333333333333333, 48, 0.0, False)], 1: [(0.3333333333333333, 40, 0.0, False), (0.3333333333333333, 48, 0.0, False), (0.3333333333333333, 41, 0.0, True)], 2: [(0.3333333333333333, 48, 0.0, False), (0.3333333333333333, 41, 0.0, True), (0.3333333333333333, 32, 0.0, False)], 3: [(0.3333333333333333, 41, 0.0, True), (0.3333333333333333, 32, 0.0, False), (0.3333333333333333, 40, 0.0, False)]}, 41: {0: [(1.0, 41, 0, True)], 1: [(1.0, 41, 0, True)], 2: [(1.0, 41, 0, True)], 3: [(1.0, 41, 0, True)]}, 42: {0: [(1.0, 42, 0, True)], 1: [(1.0, 42, 0, True)], 2: [(1.0, 42, 0, True)], 3: [(1.0, 42, 0, True)]}, 43: {0: [(0.3333333333333333, 35, 0.0, True), (0.3333333333333333, 42, 0.0, True), (0.3333333333333333, 51, 0.0, False)], 1: [(0.3333333333333333, 42, 0.0, True), (0.3333333333333333, 51, 0.0, False), (0.3333333333333333, 44, 0.0, False)], 2: [(0.3333333333333333, 51, 0.0, False), (0.3333333333333333, 44, 0.0, False), (0.3333333333333333, 35, 0.0, True)], 3: [(0.3333333333333333, 44, 0.0, False), (0.3333333333333333, 35, 0.0, True), (0.3333333333333333, 42, 0.0, True)]}, 44: {0: [(0.3333333333333333, 36, 0.0, False), (0.3333333333333333, 43, 0.0, False), (0.3333333333333333, 52, 0.0, True)], 1: [(0.3333333333333333, 43, 0.0, False), (0.3333333333333333, 52, 0.0, True), (0.3333333333333333, 45, 0.0, False)], 2: [(0.3333333333333333, 52, 0.0, True), (0.3333333333333333, 45, 0.0, False), (0.3333333333333333, 36, 0.0, False)], 3: [(0.3333333333333333, 45, 0.0, False), (0.3333333333333333, 36, 0.0, False), (0.3333333333333333, 43, 0.0, False)]}, 45: {0: [(0.3333333333333333, 37, 0.0, False), (0.3333333333333333, 44, 0.0, False), (0.3333333333333333, 53, 0.0, False)], 1: [(0.3333333333333333, 44, 0.0, False), (0.3333333333333333, 53, 0.0, False), (0.3333333333333333, 46, 0.0, True)], 2: [(0.3333333333333333, 53, 0.0, False), (0.3333333333333333, 46, 0.0, True), (0.3333333333333333, 37, 0.0, False)], 3: [(0.3333333333333333, 46, 0.0, True), (0.3333333333333333, 37, 0.0, False), (0.3333333333333333, 44, 0.0, False)]}, 46: {0: [(1.0, 46, 0, True)], 1: [(1.0, 46, 0, True)], 2: [(1.0, 46, 0, True)], 3: [(1.0, 46, 0, True)]}, 47: {0: [(0.3333333333333333, 39, 0.0, False), (0.3333333333333333, 46, 0.0, True), (0.3333333333333333, 55, 0.0, False)], 1: [(0.3333333333333333, 46, 0.0, True), (0.3333333333333333, 55, 0.0, False), (0.3333333333333333, 47, 0.0, False)], 2: [(0.3333333333333333, 55, 0.0, False), (0.3333333333333333, 47, 0.0, False), (0.3333333333333333, 39, 0.0, False)], 3: [(0.3333333333333333, 47, 0.0, False), (0.3333333333333333, 39, 0.0, False), (0.3333333333333333, 46, 0.0, True)]}, 48: {0: [(0.3333333333333333, 40, 0.0, False), (0.3333333333333333, 48, 0.0, False), (0.3333333333333333, 56, 0.0, False)], 1: [(0.3333333333333333, 48, 0.0, False), (0.3333333333333333, 56, 0.0, False), (0.3333333333333333, 49, 0.0, True)], 2: [(0.3333333333333333, 56, 0.0, False), (0.3333333333333333, 49, 0.0, True), (0.3333333333333333, 40, 0.0, False)], 3: [(0.3333333333333333, 49, 0.0, True), (0.3333333333333333, 40, 0.0, False), (0.3333333333333333, 48, 0.0, False)]}, 49: {0: [(1.0, 49, 0, True)], 1: [(1.0, 49, 0, True)], 2: [(1.0, 49, 0, True)], 3: [(1.0, 49, 0, True)]}, 50: {0: [(0.3333333333333333, 42, 0.0, True), (0.3333333333333333, 49, 0.0, True), (0.3333333333333333, 58, 0.0, False)], 1: [(0.3333333333333333, 49, 0.0, True), (0.3333333333333333, 58, 0.0, False), (0.3333333333333333, 51, 0.0, False)], 2: [(0.3333333333333333, 58, 0.0, False), (0.3333333333333333, 51, 0.0, False), (0.3333333333333333, 42, 0.0, True)], 3: [(0.3333333333333333, 51, 0.0, False), (0.3333333333333333, 42, 0.0, True), (0.3333333333333333, 49, 0.0, True)]}, 51: {0: [(0.3333333333333333, 43, 0.0, False), (0.3333333333333333, 50, 0.0, False), (0.3333333333333333, 59, 0.0, True)], 1: [(0.3333333333333333, 50, 0.0, False), (0.3333333333333333, 59, 0.0, True), (0.3333333333333333, 52, 0.0, True)], 2: [(0.3333333333333333, 59, 0.0, True), (0.3333333333333333, 52, 0.0, True), (0.3333333333333333, 43, 0.0, False)], 3: [(0.3333333333333333, 52, 0.0, True), (0.3333333333333333, 43, 0.0, False), (0.3333333333333333, 50, 0.0, False)]}, 52: {0: [(1.0, 52, 0, True)], 1: [(1.0, 52, 0, True)], 2: [(1.0, 52, 0, True)], 3: [(1.0, 52, 0, True)]}, 53: {0: [(0.3333333333333333, 45, 0.0, False), (0.3333333333333333, 52, 0.0, True), (0.3333333333333333, 61, 0.0, False)], 1: [(0.3333333333333333, 52, 0.0, True), (0.3333333333333333, 61, 0.0, False), (0.3333333333333333, 54, 0.0, True)], 2: [(0.3333333333333333, 61, 0.0, False), (0.3333333333333333, 54, 0.0, True), (0.3333333333333333, 45, 0.0, False)], 3: [(0.3333333333333333, 54, 0.0, True), (0.3333333333333333, 45, 0.0, False), (0.3333333333333333, 52, 0.0, True)]}, 54: {0: [(1.0, 54, 0, True)], 1: [(1.0, 54, 0, True)], 2: [(1.0, 54, 0, True)], 3: [(1.0, 54, 0, True)]}, 55: {0: [(0.3333333333333333, 47, 0.0, False), (0.3333333333333333, 54, 0.0, True), (0.3333333333333333, 63, 1.0, True)], 1: [(0.3333333333333333, 54, 0.0, True), (0.3333333333333333, 63, 1.0, True), (0.3333333333333333, 55, 0.0, False)], 2: [(0.3333333333333333, 63, 1.0, True), (0.3333333333333333, 55, 0.0, False), (0.3333333333333333, 47, 0.0, False)], 3: [(0.3333333333333333, 55, 0.0, False), (0.3333333333333333, 47, 0.0, False), (0.3333333333333333, 54, 0.0, True)]}, 56: {0: [(0.3333333333333333, 48, 0.0, False), (0.3333333333333333, 56, 0.0, False), (0.3333333333333333, 56, 0.0, False)], 1: [(0.3333333333333333, 56, 0.0, False), (0.3333333333333333, 56, 0.0, False), (0.3333333333333333, 57, 0.0, False)], 2: [(0.3333333333333333, 56, 0.0, False), (0.3333333333333333, 57, 0.0, False), (0.3333333333333333, 48, 0.0, False)], 3: [(0.3333333333333333, 57, 0.0, False), (0.3333333333333333, 48, 0.0, False), (0.3333333333333333, 56, 0.0, False)]}, 57: {0: [(0.3333333333333333, 49, 0.0, True), (0.3333333333333333, 56, 0.0, False), (0.3333333333333333, 57, 0.0, False)], 1: [(0.3333333333333333, 56, 0.0, False), (0.3333333333333333, 57, 0.0, False), (0.3333333333333333, 58, 0.0, False)], 2: [(0.3333333333333333, 57, 0.0, False), (0.3333333333333333, 58, 0.0, False), (0.3333333333333333, 49, 0.0, True)], 3: [(0.3333333333333333, 58, 0.0, False), (0.3333333333333333, 49, 0.0, True), (0.3333333333333333, 56, 0.0, False)]}, 58: {0: [(0.3333333333333333, 50, 0.0, False), (0.3333333333333333, 57, 0.0, False), (0.3333333333333333, 58, 0.0, False)], 1: [(0.3333333333333333, 57, 0.0, False), (0.3333333333333333, 58, 0.0, False), (0.3333333333333333, 59, 0.0, True)], 2: [(0.3333333333333333, 58, 0.0, False), (0.3333333333333333, 59, 0.0, True), (0.3333333333333333, 50, 0.0, False)], 3: [(0.3333333333333333, 59, 0.0, True), (0.3333333333333333, 50, 0.0, False), (0.3333333333333333, 57, 0.0, False)]}, 59: {0: [(1.0, 59, 0, True)], 1: [(1.0, 59, 0, True)], 2: [(1.0, 59, 0, True)], 3: [(1.0, 59, 0, True)]}, 60: {0: [(0.3333333333333333, 52, 0.0, True), (0.3333333333333333, 59, 0.0, True), (0.3333333333333333, 60, 0.0, False)], 1: [(0.3333333333333333, 59, 0.0, True), (0.3333333333333333, 60, 0.0, False), (0.3333333333333333, 61, 0.0, False)], 2: [(0.3333333333333333, 60, 0.0, False), (0.3333333333333333, 61, 0.0, False), (0.3333333333333333, 52, 0.0, True)], 3: [(0.3333333333333333, 61, 0.0, False), (0.3333333333333333, 52, 0.0, True), (0.3333333333333333, 59, 0.0, True)]}, 61: {0: [(0.3333333333333333, 53, 0.0, False), (0.3333333333333333, 60, 0.0, False), (0.3333333333333333, 61, 0.0, False)], 1: [(0.3333333333333333, 60, 0.0, False), (0.3333333333333333, 61, 0.0, False), (0.3333333333333333, 62, 0.0, False)], 2: [(0.3333333333333333, 61, 0.0, False), (0.3333333333333333, 62, 0.0, False), (0.3333333333333333, 53, 0.0, False)], 3: [(0.3333333333333333, 62, 0.0, False), (0.3333333333333333, 53, 0.0, False), (0.3333333333333333, 60, 0.0, False)]}, 62: {0: [(0.3333333333333333, 54, 0.0, True), (0.3333333333333333, 61, 0.0, False), (0.3333333333333333, 62, 0.0, False)], 1: [(0.3333333333333333, 61, 0.0, False), (0.3333333333333333, 62, 0.0, False), (0.3333333333333333, 63, 1.0, True)], 2: [(0.3333333333333333, 62, 0.0, False), (0.3333333333333333, 63, 1.0, True), (0.3333333333333333, 54, 0.0, True)], 3: [(0.3333333333333333, 63, 1.0, True), (0.3333333333333333, 54, 0.0, True), (0.3333333333333333, 61, 0.0, False)]}, 63: {0: [(1.0, 63, 0, True)], 1: [(1.0, 63, 0, True)], 2: [(1.0, 63, 0, True)], 3: [(1.0, 63, 0, True)]}}
00:00:00 [INFO] isd: [1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
00:00:00 [INFO] lastaction: None
00:00:00 [INFO] nS: 64
00:00:00 [INFO] nA: 4
00:00:00 [INFO] action_space: Discrete(4)
00:00:00 [INFO] observation_space: Discrete(64)
00:00:00 [INFO] np_random: RandomState(MT19937)
00:00:00 [INFO] s: 0
00:00:00 [INFO] spec: EnvSpec(FrozenLake8x8-v1)
In [3]:
class ClosedFormAgent:
    def __init__(self, env):
        state_n, action_n = env.observation_space.n, env.action_space.n
        v = np.zeros((env.spec.max_episode_steps+1, state_n))
        q = np.zeros((env.spec.max_episode_steps+1, state_n, action_n))
        pi = np.zeros((env.spec.max_episode_steps+1, state_n))
        for t in range(env.spec.max_episode_steps-1, -1, -1):
            for s in range(state_n):
                for a in range(action_n):
                    for p, next_s, r, d in env.P[s][a]:
                        q[t, s, a] += p * (r + (1. - float(d)) * v[t+1, next_s])
                v[t, s] = q[t, s].max()
                pi[t, s] = q[t, s].argmax()
        self.pi = pi

    def reset(self, mode=None):
        self.t = 0

    def step(self, observation, reward, terminated):
        action = self.pi[self.t, observation]
        self.t += 1
        return action

    def close(self):
        pass


agent = ClosedFormAgent(env)
In [4]:
def play_episode(env, agent, seed=None, mode=None, render=False):
    observation, _ = env.reset(seed=seed)
    reward, terminated, truncated = 0., False, False
    agent.reset(mode=mode)
    episode_reward, elapsed_steps = 0., 0
    while True:
        action = agent.step(observation, reward, terminated)
        if render:
            env.render()
        if terminated or truncated:
            break
        observation, reward, terminated, truncated, _ = env.step(action)
        episode_reward += reward
        elapsed_steps += 1
    agent.close()
    return episode_reward, elapsed_steps


logging.info('==== test ====')
episode_rewards = []
for episode in range(100):
    episode_reward, elapsed_steps = play_episode(env, agent)
    episode_rewards.append(episode_reward)
    logging.info('test episode %d: reward = %.2f, steps = %d',
            episode, episode_reward, elapsed_steps)
logging.info('average episode reward = %.2f ± %.2f',
        np.mean(episode_rewards), np.std(episode_rewards))
00:00:01 [INFO] ==== test ====
00:00:01 [INFO] test episode 0: reward = 1.00, steps = 160
00:00:01 [INFO] test episode 1: reward = 1.00, steps = 89
00:00:01 [INFO] test episode 2: reward = 0.00, steps = 195
00:00:01 [INFO] test episode 3: reward = 1.00, steps = 94
00:00:01 [INFO] test episode 4: reward = 1.00, steps = 196
00:00:01 [INFO] test episode 5: reward = 0.00, steps = 200
00:00:01 [INFO] test episode 6: reward = 1.00, steps = 189
00:00:01 [INFO] test episode 7: reward = 1.00, steps = 141
00:00:01 [INFO] test episode 8: reward = 1.00, steps = 103
00:00:01 [INFO] test episode 9: reward = 1.00, steps = 191
00:00:01 [INFO] test episode 10: reward = 1.00, steps = 83
00:00:01 [INFO] test episode 11: reward = 1.00, steps = 120
00:00:01 [INFO] test episode 12: reward = 1.00, steps = 83
00:00:01 [INFO] test episode 13: reward = 1.00, steps = 140
00:00:01 [INFO] test episode 14: reward = 1.00, steps = 70
00:00:01 [INFO] test episode 15: reward = 1.00, steps = 132
00:00:01 [INFO] test episode 16: reward = 1.00, steps = 100
00:00:01 [INFO] test episode 17: reward = 1.00, steps = 146
00:00:01 [INFO] test episode 18: reward = 0.00, steps = 198
00:00:01 [INFO] test episode 19: reward = 1.00, steps = 44
00:00:01 [INFO] test episode 20: reward = 1.00, steps = 75
00:00:01 [INFO] test episode 21: reward = 1.00, steps = 51
00:00:01 [INFO] test episode 22: reward = 1.00, steps = 111
00:00:01 [INFO] test episode 23: reward = 1.00, steps = 28
00:00:01 [INFO] test episode 24: reward = 1.00, steps = 189
00:00:01 [INFO] test episode 25: reward = 1.00, steps = 59
00:00:01 [INFO] test episode 26: reward = 1.00, steps = 36
00:00:01 [INFO] test episode 27: reward = 1.00, steps = 50
00:00:01 [INFO] test episode 28: reward = 1.00, steps = 136
00:00:01 [INFO] test episode 29: reward = 0.00, steps = 194
00:00:01 [INFO] test episode 30: reward = 1.00, steps = 177
00:00:01 [INFO] test episode 31: reward = 0.00, steps = 198
00:00:01 [INFO] test episode 32: reward = 1.00, steps = 167
00:00:01 [INFO] test episode 33: reward = 1.00, steps = 36
00:00:01 [INFO] test episode 34: reward = 1.00, steps = 66
00:00:01 [INFO] test episode 35: reward = 1.00, steps = 121
00:00:01 [INFO] test episode 36: reward = 0.00, steps = 174
00:00:01 [INFO] test episode 37: reward = 1.00, steps = 117
00:00:01 [INFO] test episode 38: reward = 0.00, steps = 200
00:00:01 [INFO] test episode 39: reward = 1.00, steps = 132
00:00:01 [INFO] test episode 40: reward = 1.00, steps = 176
00:00:01 [INFO] test episode 41: reward = 0.00, steps = 197
00:00:01 [INFO] test episode 42: reward = 1.00, steps = 59
00:00:01 [INFO] test episode 43: reward = 1.00, steps = 125
00:00:01 [INFO] test episode 44: reward = 1.00, steps = 117
00:00:01 [INFO] test episode 45: reward = 1.00, steps = 109
00:00:01 [INFO] test episode 46: reward = 1.00, steps = 39
00:00:01 [INFO] test episode 47: reward = 1.00, steps = 165
00:00:01 [INFO] test episode 48: reward = 1.00, steps = 118
00:00:01 [INFO] test episode 49: reward = 1.00, steps = 164
00:00:01 [INFO] test episode 50: reward = 1.00, steps = 133
00:00:01 [INFO] test episode 51: reward = 1.00, steps = 96
00:00:01 [INFO] test episode 52: reward = 1.00, steps = 74
00:00:01 [INFO] test episode 53: reward = 1.00, steps = 84
00:00:01 [INFO] test episode 54: reward = 1.00, steps = 61
00:00:01 [INFO] test episode 55: reward = 1.00, steps = 111
00:00:01 [INFO] test episode 56: reward = 1.00, steps = 40
00:00:01 [INFO] test episode 57: reward = 1.00, steps = 81
00:00:01 [INFO] test episode 58: reward = 1.00, steps = 153
00:00:01 [INFO] test episode 59: reward = 1.00, steps = 59
00:00:01 [INFO] test episode 60: reward = 1.00, steps = 57
00:00:01 [INFO] test episode 61: reward = 1.00, steps = 28
00:00:01 [INFO] test episode 62: reward = 1.00, steps = 115
00:00:01 [INFO] test episode 63: reward = 1.00, steps = 101
00:00:01 [INFO] test episode 64: reward = 1.00, steps = 135
00:00:01 [INFO] test episode 65: reward = 1.00, steps = 115
00:00:01 [INFO] test episode 66: reward = 1.00, steps = 120
00:00:01 [INFO] test episode 67: reward = 1.00, steps = 112
00:00:01 [INFO] test episode 68: reward = 1.00, steps = 50
00:00:01 [INFO] test episode 69: reward = 1.00, steps = 81
00:00:01 [INFO] test episode 70: reward = 0.00, steps = 199
00:00:01 [INFO] test episode 71: reward = 1.00, steps = 122
00:00:01 [INFO] test episode 72: reward = 1.00, steps = 85
00:00:01 [INFO] test episode 73: reward = 1.00, steps = 136
00:00:01 [INFO] test episode 74: reward = 1.00, steps = 33
00:00:01 [INFO] test episode 75: reward = 1.00, steps = 134
00:00:01 [INFO] test episode 76: reward = 1.00, steps = 91
00:00:01 [INFO] test episode 77: reward = 1.00, steps = 98
00:00:01 [INFO] test episode 78: reward = 1.00, steps = 34
00:00:01 [INFO] test episode 79: reward = 1.00, steps = 83
00:00:01 [INFO] test episode 80: reward = 1.00, steps = 96
00:00:01 [INFO] test episode 81: reward = 1.00, steps = 103
00:00:01 [INFO] test episode 82: reward = 1.00, steps = 160
00:00:01 [INFO] test episode 83: reward = 1.00, steps = 73
00:00:01 [INFO] test episode 84: reward = 1.00, steps = 104
00:00:01 [INFO] test episode 85: reward = 1.00, steps = 67
00:00:01 [INFO] test episode 86: reward = 1.00, steps = 78
00:00:01 [INFO] test episode 87: reward = 1.00, steps = 82
00:00:01 [INFO] test episode 88: reward = 1.00, steps = 173
00:00:01 [INFO] test episode 89: reward = 1.00, steps = 79
00:00:01 [INFO] test episode 90: reward = 1.00, steps = 67
00:00:01 [INFO] test episode 91: reward = 1.00, steps = 176
00:00:01 [INFO] test episode 92: reward = 1.00, steps = 164
00:00:01 [INFO] test episode 93: reward = 1.00, steps = 200
00:00:01 [INFO] test episode 94: reward = 1.00, steps = 88
00:00:01 [INFO] test episode 95: reward = 1.00, steps = 129
00:00:01 [INFO] test episode 96: reward = 1.00, steps = 165
00:00:01 [INFO] test episode 97: reward = 1.00, steps = 144
00:00:01 [INFO] test episode 98: reward = 1.00, steps = 164
00:00:01 [INFO] test episode 99: reward = 1.00, steps = 135
00:00:01 [INFO] average episode reward = 0.91 ± 0.29
In [5]:
env.close()