とあるOLのTechBlog

勉強したことを記録していきます。

Pre-Trained Models: Past, Present and Future #1

2021/6/15 に公開されたTransformerに関するサーベイ論文の意訳です。

今回はAbstract、introductionです。

Abstract

BERT や GPT などの大規模な学習済みモデル(PTM)は、近年大きな成功を収めており、人工知能(AI) 分野におけるマイルストーンとなっています。大規模な事前学習モデル(PTM)は、BERTやGPTのように、近年、人工知能(AI)の分野で大きな成功を収めています。洗練された事前学習の目的と巨大なモデルパラメータにより、大規模なPTMは、大量のラベル付きおよびラベルなしのデータから知識を効果的に取り込むことができます。 巨大なパラメータに知識を蓄え、特定のタスクでファインチューニングすることで 膨大なパラメータに暗黙的にエンコードされた豊富な知識は、下流のさまざまなタスクに役立つことが、実験的検証と実証的分析によって広く示されています。現在、AI界隈では、モデルをゼロから学習するのではなく、PTMを下流のタスクのバックボーンとして採用することがコンセンサスとなっています。 この論文では、事前学習の歴史、特に伝達学習や自己教師付き学習との特別な関係について深く考察します。さらに、PTMの最新のブレイクスルーを包括的にレビューします。これらのブレイクスルーは、計算能力の飛躍的な向上とデータの利用可能性の増加により、効果的なアーキテクチャの設計、豊富なコンテクストの活用、計算効率の向上、解釈と理論的分析の実施という4つの重要な方向に向かっています。 最後に、PTMの一連の未解決問題と研究の方向性について議論し、我々の見解がPTMの将来の研究に刺激を与え、前進させることができることを願っています。

Introduction

CNN、RNN、GNN(Graph neural networks)、ANN(Attention neural networks)などのディープニューラルネットワークは、近年、様々な人工知能(AI)のタスクに広く適用されています。主にニューラルモデルは、手作業で作成した特徴量や統計的手法に大きく依存していたこれまでの非ニューラルモデルとは異なり、低次元の連続ベクトル(別名:分散表現)をタスクに応じてデータから自動的に学習することができます。これにより、複雑な特徴量エンジニアリングが不要になります。ディープニューラルネットワークの成功にもかかわらず、多くの研究により、ディープニューラルネットワークの重要な課題の一つは、データ不足であることが分かっています。ディープニューラルネットワークは通常、多数のパラメータを持つため、十分な学習データがないと、オーバーフィットしやすく、一般化能力が低いことが分かっています。 しかし、大規模データのアノテーションを手動で行うには、コストと時間がかかります。 それゆえ、現在に至るまで長い間、「限られた人間の注釈付きデータで、特定のタスクのために効果的なディープニューラルモデルをいかにして訓練するか」が重要な研究課題となっていました。この問題の一つのマイルストーンは、転移学習の導入です。大量のデータを使って一からモデルを学習するのではなく、人間が少ないサンプルで新しい問題を解決することができます。 ディープニューラルネットワークの開発と同時にAIタスクのための高品質なデータセットを手動で構築することに多大な努力が払われ、従来の非ニューラルモデルよりも優れた、特定のタスクに対して効果的なニューラルモデルを学習することが可能になりました。この驚くべき学習プロセスは、人間が過去に学習した知識を使って新しい問題に対処できるという事実に基づいています。転移学習では、1つまたは複数のソースタスクから知識を獲得するための事前学習段階と、獲得した知識をターゲットタスクに移すための微調整段階という、2段階の学習フレームワークを公式化しています。事前学習で得られた豊富な知識により、ファインチューニングの段階では、限られたサンプルでターゲットタスクをうまく扱うことができるモデルを作ることができます。

転移学習は、データ不足の問題を解決するための実現可能な方法であり、すぐにコンピュータビジョンの分野で広く応用されました。一連のCNNは、人間が注釈をつけた視覚認識データセットImageNetで事前学習されます。ImageNetに分散している強力な視覚的知識の恩恵を受けて、これらの事前学習されたCNNを少量のタスク固有のデータで微調整することで、下流のタスクで良好な性能を発揮することができます。これは、深層学習の時代における事前学習済みモデル(PTM)を探索する最初の波のきっかけとなります。この流れの中で、PTMは、画像分類、物体検出、画像のセグメンテション、画像のキャプションなどで使われています。

自然言語処理(NLP)コミュニティもPTMの可能性に気付き、NLPタスクのためのPTMを開発し始めました。大規模なラベルなしコーパスを最大限に活用して、NLPタスクのための汎用的な言語知識を提供するために、NLPコミュニティはPTMの開発に自己教師付き学習を採用しています。自己教師付き学習の動機は、人間による監督の代わりに、テキストに内在する相関関係を監督信号として活用することにあります。

例えば、"Beijing is the capital of China "という文章があった場合、文章の最後の単語をマスクし、マスクされた位置を "China "という単語で予測するようにモデルに要求します。自己教師付き学習により、膨大な量のラベルのないテキストデータを利用して、労力をかけずに汎用性の高い言語知識を得ることができます。この自己教師付き の設定は、よく知られている言語モデル学習に準じます。

長い間、NLPタスクに深層ニューラルネットワークを使用する際の悩みの種であった勾配消失や爆発の問題がありました。そのため、CVコミュニティが深層PTMの研究を進めるとき、NLPコミュニティの初期の研究では、浅いネットワークを事前にトレーニングして単語の意味を捉えることにフォーカスしました。たとえばWord2Vecや GloVeのようにです。これらの事前学習された単語埋め込みは、様々なNLPタスクにおいて重要な役割を果たしています。各単語が1つの密なベクトルでしか表現されないため、異なる文脈における多義語を表現するには大きな限界があります。1つの密なベクトルでしか表現できないからです。

NLPコミュニティにおける深層ニューラルネットワークの発展に伴い、Transformerの導入により、非常に深いニューラルモデルを訓練することが可能になりました。Transformersをアーキテクチャとし、言語モデルの学習を目的として、2018年にはNLPタスクのための深層PTM GPTとBERTが提案されています。GPTとBERTから、PTMのサイズが大きくなると、数億個のパラメータを持つ大規模PTMは、多義語の曖昧さ、語彙や構文の構造、さらにはテキストからの事実認識の知識を捉えることができることがわかります。大規模なPTMをかなりの数のサンプルでファインチューニングすることで、PTMの豊富な言語的知識は、下流NLPタスクに素晴らしいパフォーマンスをもたらします。図1(a)と図1(b)に示すように、大規模なPTMは、過去数年間で、言語理解と言語生成の両方のタスクにおいて図1(b)に示すように、大規模PTMは過去数年の間に、言語理解と言語生成の両方のタスクで優れた性能を発揮し、人間の性能を上回る結果を達成しました。図2(a)に示すように、NLPコミュニティにおけるこれらの努力と成果により、大規模PTMはAI研究の焦点となりました。 f:id:yoppy88:20210710154728p:plain

これまで、大規模なPTMを探索するために、NLPのための、あるいはCVのための、様々な取り組みがなされてきました。

また、ゼロからモデルを学習するのではなく、特定のAIタスクのために大規模PTMを微調整することもコンセンサスとなっています。図2(b)に示すように、大規模なPTMを実現するためには、大規模な計算機が必要です。 図2(b)に示すように、分散型計算機の普及による計算能力の向上により、PTMのパラメータの規模を100万レベルから10億レベル、さらには1兆レベルへと進化させることができます。

また、数千億個のパラメータを持つGPT-3の登場により、膨大なモデルパラメータに分散している潜在的な力、特に 人間のようにfew-shot learning的な学習能力の高さを垣間見ることができます。

既存の大規模PTMは、様々なAIタスクにおけるモデルの性能を向上させており さらには、深層学習モデルの性能に関する我々の現在の認識を覆してきました。しかし、PTMに関するいくつかの基本的な問題はまだ残っています。 膨大な量のモデルパラメータに隠された本質はまだ明らかになっておらず、この巨大なモデルを学習させるための膨大な計算コストが、さらなる探求を妨げています。今この瞬間。現在、これらのPTMは、AI研究者たちを岐路に立たせています。 現在、これらのPTMは、我々のAI研究者を岐路に立たせており、多くの方向性が開かれています。

"ローマは一日にして成らず"という言葉がありますが、PTMも最新の成功を収めるまでには長い開発期間を要します。そのために、PTMの発展の歴史を辿り、AIの中でのPTMの位置づけを描くことで、PTMの核となる研究課題を明確に理解することができます。次に、現在進められている4つの重要な路線(効果的なアーキテクチャの設計、豊富なコンテクストの活用、計算効率の向上、解釈と理論解析の実施)に沿って、様々な最新のPTMの詳細を紹介します。解釈と理論的分析を行うことです。PTMの現在の開発状況を歴史的なスペクトラムの文脈に統合することで、いくつかの未解決の問題を議論し、PTMの有望な将来の方向性を結論付けます。本稿の取り組みが、PTMのさらなる発展につながることを願っています。

Pre-Trained Models: Past, Present and Future https://arxiv.org/pdf/2106.07139.pdf