レイヤー正規化

これはレイヤー正規化の PyTorch 実装です。

バッチ正規化の制限事項

  • ランニング手段を維持する必要があります。
  • RNNにとっては扱いにくい。ステップごとに異なる正規化が必要ですか
  • ?
  • 小さなバッチサイズでは機能しません。大規模なNLPモデルは通常、小さなバッチサイズでトレーニングされます。
  • 分散型トレーニングでは、デバイス間の平均と分散を計算する必要があります。
  • レイヤー正規化

    レイヤー正規化は、より幅広い設定に適用できる、より単純な正規化方法です。層の正規化により、入力は特徴全体で平均がゼロで単位分散がなくなるように変換されます。バッチ正規化では、各要素のゼロ平均と単位分散が固定されることに注意してください。レイヤーの正規化は、すべての要素のバッチごとに正規化を行います

    レイヤー正規化は通常、NLP タスクに使用されます。

    ほとんどのトランスフォーマー実装で層の正規化を使用しています