これは PyTorch の Transformer-XL: 固定長のコンテキストを超えた注意深い言語モデルの実装です。
Transformer のアテンションスパンは、並行してトレーニングされたシーケンスの長さと同じくらいの制限があります。これらの位置はすべて固定された位置エンコーディングになっています。Transformer XLは、事前に計算された過去の埋め込みに各ポジションに注目させることで、このアテンションスパンを増やします。たとえば、コンテキストの長さがの場合、前のバッチの長さのすべてのレイヤーの埋め込みを保持し、それらを現在のステップに送ります。固定位置エンコーディングを使用すると、これらの事前に計算された埋め込みは現在のコンテキストと同じ位置になります。相対位置エンコーディングが導入され、アテンション計算時に位置エンコーディングが導入されます
。相対的多面的注意の注釈付き実装が導入されました。relative_mha.py
Tiny ShakespeareデータセットでトランスフォーマーXLモデルをトレーニングするためのトレーニングコードとノートブックです。