这是层规范化的 PyTorch 实现。
- 你需要保持跑步手段。
- 对于 RNN 来说很棘手。每个步骤都需要不同的规范化吗?
- 不适用于小批量;大型 NLP 模型通常使用小批量进行训练。
- 需要在分布式训练中计算设备间的均值和方差。
层规范化
图层归一化是一种更简单的归一化方法,适用于更广泛的设置。图层归一化会将输入变换为各要素的均值和单位方差为零。请注意,批量归一化修复了每个元素的零均值和单位方差。层归一化对所有元素的每个批次执行此操作。
层归一化通常用于 NLP 任务。
我们在大多数变压器实现中都使用了层归一化。