| シリーズの一部 |
| 機械学習とデータマイニング |
|---|
| 生成的事前学習済みトランスフォーマー1(GPT-1) | |
|---|---|
| 原作者 | オープンAI |
| 初回リリース | 2018年6月 (June 2018) |
| リポジトリ | |
| 後継 | GPT-2 |
| タイプ | |
| ライセンス | マサチューセッツ工科大学[ 1 ] |
| Webサイト | openai |

生成事前学習済みトランスフォーマー1(GPT-1)は、2017年にGoogleがトランスフォーマーアーキテクチャを発明した後、OpenAIが開発した最初の大規模言語モデルでした。 [ 2 ] 2018年6月、OpenAIは「生成事前学習による言語理解の向上」と題する論文を発表しました。[ 3 ]この論文で、生成事前学習済みトランスフォーマーの一般的な概念とともに、最初のモデルが紹介されました。[ 4 ]
それまで、最も優れた性能を発揮したニューラルNLPモデルは、主に大量の手動でラベル付けされたデータからの教師あり学習を採用していました。この教師あり学習への依存は、適切にアノテーションされていないデータセットの使用を制限し、さらに非常に大規模なモデルのトレーニングには法外な費用と時間がかかります。 [ 3 ] [ 5 ]多くの言語(スワヒリ語やハイチ語クレオール語など)は、コーパス構築に利用可能なテキストが不足しているため、このようなモデルを使用して翻訳および解釈することが困難です。[ 5 ]対照的に、GPTの「半教師あり」アプローチは、言語モデリングの目的を使用して初期パラメータを設定する教師なし生成「事前トレーニング」段階と、これらのパラメータをターゲットタスクに合わせて調整する教師あり識別「微調整」段階の2つの段階で構成されます。[ 3 ]
注意増強型RNNを含む従来の技術とは対照的に、トランスフォーマーアーキテクチャの使用は、再帰メカニズムで達成できるよりも構造化されたメモリをGPTモデルに提供しました。これにより、「多様なタスクにわたる堅牢な転送パフォーマンス」が実現しました。[ 3 ]
GPT-1アーキテクチャは、12層のデコーダのみを備えたトランスフォーマーであり、 12個のマスク付き自己注意ヘッド(それぞれ64次元状態、合計768次元状態)を使用しています。単純な確率的勾配降下法ではなく、Adam最適化アルゴリズムが使用されました。学習率は最初の2,000回の更新でゼロから最大2.5×10 −4まで線形に増加し、コサインスケジュールを用いて0に焼きなましされました。 [ 3 ] GPT-1には1億1,700万個のパラメータがあります。[ 4 ]
微調整は特定のタスクに合わせて行われましたが、事前トレーニングはそうではありませんでした。さまざまなタスクを実行するために、基礎となるタスクに依存しないモデルアーキテクチャに最小限の変更が加えられました。[ 3 ]それにもかかわらず、GPT-1はいくつかの言語処理タスクにおいて以前のベンチマークよりも改善され、いくつかの多様なタスクにおいてタスク指向アーキテクチャを備えた識別的に訓練されたモデルよりも優れた性能を発揮しました。[ 3 ]
GPT-1は、自然言語推論(テキスト含意とも呼ばれる)タスクにおいて、これまでの最高結果[ 3 ]に対して5.8%と1.5%の改善を達成しました。これは、様々なデータセットからの文のペアを解釈し、それらの関係を「含意」、「矛盾」、「中立」として分類する能力を評価するものです。[ 3 ]このようなデータセットの例には、QNLI(Wikipediaの記事)やMultiNLI(転写された音声、人気小説、政府報告書など)があります。[ 6 ]同様に、質問応答と常識推論に関連する2つのタスクでも、以前のモデルを上回りました。RACEでは5.7%、[ 7 ]中学・高校の試験からの質問と回答のペアのデータセット、Story Cloze Testでは8.9%です。[ 8 ]
GPT-1は、Quora Question Pairs(QQP)データセットを使用して、2つの文が互いの言い換えであるかどうかを予測する能力を評価し、意味的類似性(または言い換え検出)において、以前の最高性能モデルを4.2%改善しました。[ 3 ]
GPT-1は、言語受容性コーパス(CoLA)を用いたテキスト分類タスクにおいて、45.4点という過去最高スコアを記録しました。 [ 3 ]これは、これまでの最高記録である35.0点を大幅に上回ります。また、GPT-1はマルチタスクテストであるGLUEにおいて、総合スコア72.8点(これまでの最高記録は68.9点)を記録しました。[ 9 ]
43万3千例を収録したこのリソースは、自然言語推論(テキスト含意の認識)に利用可能な最大級のコーパスの一つであり、[...] 10種類の異なるジャンルの英語の書き言葉と話し言葉のデータを提供するとともに、[...] ジャンル間のドメイン適応を評価するための明確な設定を提供しています。
LSDSem'17の共通タスクは、ストーリー理解とスクリプト学習のための新しい評価法であるストーリークローズテストです。このテストでは、4つの文からなるストーリーと2つの結末の選択肢がシステムに与えられ、システムは正しい結末を選択しなければなりません。物語理解を成功させる(人間の100%のパフォーマンスに近づく)には、システムが様々なレベルの意味を常識的な知識に結び付ける必要があります。