入门:寻找用于语言建模的高效转换器

这是 P rimer:为语言建模寻找高效转换器论文的 PyTorch 实现。

作者对变压器架构进行了进化探索。他们将使用搜索找到的架构命名为 Primer(Primitives 搜索 Transformer)。与原始变压器相比,P@@ rimer EZ 是在 Primer 中进行了两项最强大的修改的架构。Primer EZ 的训练速度比原版变压器快很多。

Squared ReLU

搜索发现的最有效的修改是在位置前馈模块中使用方形 ReLU 而不是 Re LU。

Multi-conv-Head 注意力 (MDHA)

下一个有效的修改是对查询、键和值进行多头投影后的深度 3 X 1 卷积。卷积沿着序列维度和每个通道(深度)进行。需要明确的是,如果每个磁头中的通道数为 d_k,则每个 d_k 通道的卷积将有 1 X 3 个内核。

以下是 Primer EZ 的实验代码