コンテキストウィンドウ

コンテキストウィンドウとは、大規模言語モデル(LLM)が一度に処理できる入力の最大長です。LLM技術の開発と成熟において、コンテキストウィンドウの拡張は主要な目標でした。 [ 1 ] [ 2 ]コンテキストウィンドウの長さはトークン単位で測定されます。2025年には、Gemini LLMが200万トークンという最大のコンテキストウィンドウを搭載していました。[ 3 ]

いくつかのモデルでは、コンテキストの長さはトレーニング実行中の入力のサイズによって制限されます。[ 4 ]しかし、注意メカニズムを採用することで、LLMがトレーニング時に観測されたものよりもはるかに長いシーケンスを解釈できるようにすることができます。[ 5 ]

参考文献

  1. ^ Ratner, Nir; Levine, Yoav; Belinkov, Yonatan; Ram, Ori; Magar, Inbal; Abend, Omri; Karpas, Ehud; Shashua, Amnon; Leyton-Brown, Kevin; Shoham, Yoav (2023). 「大規模言語モデルのための並列コンテキストウィンドウ」.計算言語学協会第61回年次会議議事録(第1巻:長文論文) : 6383– 6402. doi : 10.18653/v1/2023.acl-long.352 .
  2. ^ Dong, Zican; Li, Junyi; Men, Xin; Zhao, Wayne Xin; Wang, Bingning; Tian, Zhen; Chen, Weipeng; Wen, Ji-Rong (2024年12月10日). 「分解された位置ベクトルを用いた大規模言語モデルのコンテキストウィンドウの探索」 .第38回国際神経情報処理システム会議論文集. 37. Curran Associates Inc.: 10320– 10347.
  3. ^ Yeung, Ken (2024年5月14日). 「Google、1Mのコンテキストウィンドウを備えた高速マルチモーダルモデル、Gemini 1.5 Flashを発表」 . VentureBeat . 2025年8月26日閲覧。
  4. ^ Wu, S (2023). 「BloombergGPT: 金融のための大規模言語モデル」. arXiv : 2303.17564 [ LG ].
  5. ^ Press, Ofir (2021). 「短く訓練し、長くテストする:線形バイアスによる注意が入力長の外挿を可能にする」. arXiv : 2108.12409 [ LG ].