home transformers aft
View code on Github
これは、論文「アテンション・フリー・トランスフォーマー」をPyTorchで実装したものです。
この論文では、セルフアテンション層を新しい効率的な演算に置き換えます。メモリ複雑度は O (Td) で、T はシーケンスの長さで、d埋め込みの次元です。
この論文では、AFTとAFTローカルおよびAFT-Convについて紹介しています。ここでは、自己回帰モデルで近くのトークンに注目するAFT-Localを実装しました