这里只列出常用字母。部分小节会局部定义的字母,以该局部定义为准。
一般规律: 大写是随机事件或随机变量,小写是确定性事件或确定性数值。衬线体(如Times New Roman字体)是数值,非衬线体(如Open Sans字体)则不一定是数值。粗体是向量或矩阵。花体是集合。
| 拉丁字母 | 含义 |
|---|---|
| 优势 | |
| 动作(随机事件) | |
| 动作事件 | |
| 动作空间 | |
| 行为策略 | |
| 策略梯度中的基线(随机量) | |
| 经验回放中抽取的一批经验 | |
| 计数值;线性规划的目标系数 | |
| 度量 | |
| KL散度 | |
| 经验回放中的经验集 | |
| 资格迹 | |
| 期望 | |
| 回报(随机变量) | |
| 回报值 | |
| 梯度向量 | |
| 动作偏好;熵 | |
| 迭代步数 | |
| 自然数集 | |
| 概率值 | |
| 概率 | |
| 动作价值估计(随机变量) | |
| 动作价值 | |
| 最优动作价值 | |
| 奖励(随机变量) | |
| 奖励值 | |
| 奖励空间 | |
| 实数集 | |
| 状态(随机事件) | |
| 状态事件 | |
| 状态空间 | |
| 回合步数(随机变量) | |
| 时间指标 | |
| Bellman期望算子 | |
| Bellman最优算子 | |
| 矩阵的转置 | |
| 用自益得到的回报估计 | |
| 状态价值估计(随机变量) | |
| 状态价值 | |
| 最优状态价值 | |
| 价值估计参数 | |
| 一般的随机事件 | |
| 一般的事件 | |
| 一般的事件空间 | |
| 资格迹参数 | |
| 希腊字母 | 含义 |
| 学习率 | |
| 资格迹算法强化强度 | |
| 折扣因子 | |
| 时序差分误差 | |
| 探索参数 | |
| 资格迹衰减强度 | |
| 策略 | |
| 最优策略 | |
| 策略估计参数 | |
| 价值迭代终止阈值 | |
| 重要性采样比率 | |
| 扩展的优势估计(随机变量) | |
| 其他符号 | 含义 |
| 普通数值比较;向量逐元素比较;策略的偏序关系 | |
| 绝对连续 |