(2020年09月第1版第4次印刷)
Gym 0.25版本更新了API,GitHub代码已相应更新。代码以GitHub上为准。
本勘误文档中,行数计算“第
作者注: “轨道”又称为“轨迹”。本书中这两个词混用。
作者注: 这种带折扣的回报定义既可以用于回合制任务,也可以用于连续性任务,是一种统一的表示。
分母部分
分子部分
作者注:用线性规划求解最优状态价值的详细证明可见《Markov Decision Processes: Discrete Stochastic Dynamic Programming》(Martin Puterman)的第6.9节。证明大致如下:当
计算这个动态规划问题
计算这个线性规划问题
(fix point)
(fixed point)
作者注:Gym 0.19版本将FrozenLake-v0改为FrozenLake-v1。
作者注:Gym 0.22删除了DiscreteEnv类,所以env.unwrapped.nS和env.unwrapped.nA不再可用。建议用env.observation_space.n替换env.unwrapped.nA,用env.action_space.n替换env.unwrapped.nA。
态
态
作者注:Gym 0.20版本将Blackjack-v0改为Blackjack-v1。
范围为3~21的int型数值
范围为4~21的int型数值
evaluate_action_monte_carlo_importance_resample
evaluate_monte_carlo_importance_sample
monte_carlo_importance_resample
改为
monte_carlo_importance_sample
输入:环境(无数学描述)、策略
输入:环境(无数学描述)、如果是策略评估还需要输入策略
根据
根据
参数:资格迹参数
参数:资格迹参数
退出2.2步
退出2.3步
(更新动作价值函数)
(更新价值函数)
初始化资格迹
算法6-10
算法6-9
本节将“duel network”译作“对偶网络”有误。可译为“决斗网络”。相应的“对偶Q网络”、“对偶深度Q网络”可改为“决斗Q网络”、“决斗深度Q网络”。
作者注:
砖瓦编码是一种历史悠久的特征构造方法,可用于回归、分类等问题。目前学术界倾向于用神经网络代替砖瓦编码来构造特征。由于砖瓦编码和强化学习没有直接关联,本书没有用过多的篇幅介绍砖瓦编码。
实际使用砖瓦编码时,不需要精确计算砖瓦的数量,常随意的大致估计砖瓦的数量作为特征数。如果设置的特征数大于真实的砖瓦数量,那么有些特征永远不会取到,有些浪费;如果设置的特征数小于真实的砖瓦数量,那么有多个砖瓦需要共享特征,具体逻辑可以见代码清单6-3中“冲突处理”部分。这些浪费和冲突往往不会造成明显的性能损失。
第118页砖瓦数计算:每个大网格的网格宽度刚好是整个取值范围的1/8。所以,第0层大网格每个维度有8个大网格;第1~7层由于有偏移,每个维度需要有9个大网格才能覆盖整个取值范围。第117页图6-3b的情况略有不同:这个图中每个维度的取值范围不是大网格的长度的整数倍。所以有些层偏移后,不需要更多的大网格也可以覆盖整个取值范围。
改为
增量
增量
随机变量
随机变量
2.3(初始化回报和权重)
2.3(初始化回报)
learn()函数y = np.eye(self.action_n)[df['action']] * \df['psi'].values[:, np.newaxis]self.policy_net.fit(x, y, verbose=0)
xxxxxxxxxxsample_weight = df['psi'].values[:, np.newaxis]y = np.eye(self.action_n)[df['action']]self.policy_net.fit(x, y, sample_weight=sample_weight, verbose=0)
作者注:这里的更新式子遵循了论文原文而没有考虑累积折扣。推导出现折扣是正确的;更新时考虑折扣也是正确和合理的。
改为
2.1
2.1
作者注:“动作价值网络和策略网络往往采用矢量形式的输出”指的是动作空间是离散动作空间的情况。如果动作空间是连续动作空间,往往用Gaussian形式的策略,详见GitHub代码。包括SAC算法在内的使用策略梯度的算法采用Gaussian形式策略后,策略被限制为了单峰(unimodal)形式。如果需要策略具有多峰(multimodal)形式,可以使用混合Gaussian模型(Gaussian Mixture Model,GMM)。
作者注:这个案例的动作空间是离散的。同时,本章介绍的算法,包括但不限于PPO、SAC等算法,也可用于动作空间是连续空间的情况。
单5-7中的
单5-3中的
多缩进4个空格
作者注:从严格意义上说,有折扣的状态分布并不是概率分布,因为它的和不总是1。针对有折扣的状态分布的期望也只是采用了期望的形式。
2.3.1(执行)用
2.3.1(执行)用行为策略
作者注:Gym 0.21版本将Pendulum-v0改为Pendulum-v1。
作者注:Gym 0.21版本修改了Atari游戏环境的安装方式。
NoFrameSkip
NoFrameskip