一种无注意力的 Transformer

这是论文 《一种无注意力的 Transformer 》PyTorch 实现。

这篇论文用一种新的高效操作替代了自注意力层,该运算的存储复杂度为O(Td),其中 T 是序列长度,是嵌入的维度。

该论文介绍了 AFT 以及 AFT-local 和 AFT-conv 。这里我们实现了 AFT-local ,它会在自回归模型中关注邻近的 token 。