层规范化

这是层规范化PyTorch 实现。

批量标准化的局限性

  • 你需要保持跑步手段。
  • 对于 RNN 来说很棘手。每个步骤都需要不同的规范化吗?
  • 不适用于小批量;大型 NLP 模型通常使用小批量进行训练。
  • 需要在分布式训练中计算设备间的均值和方差。

层规范化

图层归一化是一种更简单的归一化方法,适用于更广泛的设置。图层归一化会将输入变换为各要素的均值和单位方差为零。请注意,批量归一化修复了每个元素的零均值和单位方差。层归一化对所有元素的每个批次执行此操作。

层归一化通常用于 NLP 任务。

我们在大多数变压器实现中都使用了层归一化。