home transformers aft
View code on Github
这是论文 《一种无注意力的 Transformer 》的PyTorch 实现。
这篇论文用一种新的高效操作替代了自注意力层,该运算的存储复杂度为O(Td),其中 T 是序列长度,d是嵌入的维度。
该论文介绍了 AFT 以及 AFT-local 和 AFT-conv 。这里我们实现了 AFT-local ,它会在自回归模型中关注邻近的 token 。