入門:言語モデリングのための効率的なトランスフォーマーの探求

これは、「入門書:言語モデリングのための効率的なトランスフォーマーの検索という論文をPyTorchで実装したものです

著者らは、変圧器アーキテクチャの進化的研究を行っています。検索で見つかったアーキテクチャを Primer (プリミティブが検索した Transformer) という名前を付けます。Primer EZは、オリジナルのトランスフォーマーと比較して、Primerで最も堅牢な2つの変更を加えたアーキテクチャです。Primer EZはバニラトランスフォーマーよりもはるかに速くトレーニングします

二乗リル

検索で見つかった最も効果的な変更は、位置ごとのフィードフォワードモジュールで ReLU の代わりに正方形の ReLU を使用することです。

マルチコンバーチングヘッドアテンション (MDHA)

次に効果的な変更は、クエリ、キー、および値のマルチヘッドプロジェクションの後に、深さ方向に 3 X 1 の畳み込みを行うことです。畳み込みは、シーケンス次元に沿って、チャネル単位 (深さ方向) で行われます。わかりやすく言うと、各ヘッドのチャネル数が d_k の場合、畳み込みでは d_k チャネルごとに 1 X 3 カーネルになります

これがプライマーEZの実験コードです