《强化学习:原理与Python实现》字母表

这里只列出常用字母。部分小节会局部定义的字母,以该局部定义为准。

一般规律: 大写是随机事件或随机变量,小写是确定性事件或确定性数值。衬线体(如Times New Roman字体)是数值,非衬线体(如Open Sans字体)则不一定是数值。粗体是向量或矩阵。花体是集合。

拉丁字母含义
a, aπ优势
A动作(随机事件)
a动作事件
A动作空间
b行为策略
B策略梯度中的基线(随机量)
B经验回放中抽取的一批经验
c计数值;线性规划的目标系数
d, d度量
dKLKL散度
D经验回放中的经验集
e资格迹
E期望
G回报(随机变量)
g回报值
g梯度向量
h动作偏好;熵
k迭代步数
N自然数集
p概率值
Pr概率
Q动作价值估计(随机变量)
q, qπ动作价值
q最优动作价值
R奖励(随机变量)
r奖励值
R奖励空间
R实数集
S状态(随机事件)
s状态事件
S状态空间
T回合步数(随机变量)
t时间指标
tπBellman期望算子
tBellman最优算子
()T矩阵的转置
U用自益得到的回报估计
V状态价值估计(随机变量)
v, vπ状态价值
v最优状态价值
w价值估计参数
X一般的随机事件
x一般的事件
X一般的事件空间
z资格迹参数
希腊字母含义
α学习率
β资格迹算法强化强度
γ折扣因子
δ时序差分误差
ε探索参数
λ资格迹衰减强度
π策略
π最优策略
θθ策略估计参数
ϑ价值迭代终止阈值
ρ重要性采样比率
Ψ扩展的优势估计(随机变量)
其他符号含义
普通数值比较;向量逐元素比较;策略的偏序关系
绝对连续