MLPミキサー:ビジョン用のオールMLPアーキテクチャ

これは、論文「MLPミキサー:ビジョン用のオールMLPアーキテクチャ」をPyTorchで実装したものです

本稿では、このモデルをビジョンタスクに適用します。このモデルは、アテンションレイヤーがパッチ(NLPタスクの場合はトークン)全体に適用されるMLPに置き換えられるトランスフォーマーに似ています

MLP Mixerの実装は、トランスフォーマー実装のセルフアテンションレイヤーに代わるものです。つまり、テンソルを転置してシーケンスの次元全体に MLP を適用するだけのコードです

この論文では視覚タスクにMLP Mixerを適用しましたが、マスクされた言語モデルで試してみましたこれが実験コードです