これは、論文「BERT:言語理解のためのディープ双方向トランスフォーマーの事前トレーニング」で紹介されているBERTモデルの事前トレーニングに使用される、マスクド・ランゲージ・モデル(MLM)のPyTorch実装です。
BERT モデルはトランスモデルです。この論文では、MLMと次の文章予測を使用してモデルを事前にトレーニングしています。ここではMLMを実装しただけです
。次の文予測では、A
モデルに2つの文が与えられ、B
A
モデルが実際のテキストに続く文かどうかをバイナリ予測します。B
モデルには、50% の確率で実際の文のペアが入力され、50% の確率でランダムなペアが入力されます。この分類はMLMを適用する際に行われます。ここではこれを実装していません。
これにより、トークンのパーセンテージがランダムにマスクされ、マスクされたトークンを予測するようにモデルをトレーニングします。[MASK]
トークンの15%を特別なトークンに置き換えることでマスクします。
損失は、マスクされたトークンの予測のみに基づいて計算されます。[MASK]
その時点ではトークンがないため、微調整や実際の使用中に問題が発生します。したがって、意味のある表現が得られない可能性があります
これを克服するには、マスクされたトークンの 10% が元のトークンに置き換えられ、さらに 10% のマスクされたトークンがランダムなトークンに置き換えられます。これにより、[MASK]
その位置の入力トークンがaであるかどうかに関係なく、実際のトークンについて表現するようにモデルをトレーニングします。また、ランダムなトークンに置き換えると、コンテキストからの情報も含む表現になります。ランダムに置き換えられたトークンを修正するにはコンテキストを使用する必要があるためです。
MLM はトレーニング信号が小さいため、自己回帰モデルよりもトレーニングが困難です。つまり、サンプルごとにトレーニングされる予測の割合はごくわずかです。
もう一つの問題は、モデルが双方向なので、どのトークンも他のトークンを見ることができるということです。これにより、「クレジットの割り当て」が難しくなります。キャラクターレベルのモデルが予測しようとしているとしましょうhome *s where i want to be
。少なくともトレーニングの初期段階では、なぜ置換が必要なのかを理解するのは非常に難しいでしょう。文章全体から何でもかまいません。*
i
一方、自己回帰設定では、h
o
hom
モデルは予測や予測などに使用するだけで済みますe
。そのため、モデルは最初に短いコンテキストで予測を開始し、後で長いコンテキストの使用方法を学習します。MLMにはこの問題があるため、最初は短いシーケンス長から始めて、後で長いシーケンス長を使用する方がトレーニングがはるかに速くなります