MLP-Mixer:适用于视觉的全 MLP 架构

这是 PyTorch 对论文 MLP-Mixer:适用于视觉的全 MLP 架构的实现。

本文将该模型应用于视觉任务。该模型类似于变压器,注意力层被应用于补丁的 MLP(如果是 NLP 任务,则为代币)。

我们实现的 MLP Mixer 完全取代了变压器实现中的自注意力层。因此,这只是几行代码,对张量进行转置以在序列维度上应用 MLP。

尽管该论文将 MLP Mixer 应用于视觉任务,但我们在掩码语言模型上进行了尝试。这是实验代码