アテンションフリーのトランスフォーマー

これは、論文「アテンション・フリー・トランスフォーマー」をPyTorchで実装したものです

この論文では、セルフアテンション層を新しい効率的な演算に置き換えます。メモリ複雑度は O (Td) で、T はシーケンスの長さで、埋め込みの次元です。

この論文では、AFTとAFTローカルおよびAFT-Convについて紹介しています。ここでは、自己回帰モデルで近くのトークンに注目するAFT-Localを実装しました