OpenAI Five

OpenAI Fiveは、 OpenAIが開発した5対5のビデオゲームDota 2をプレイするコンピュータプログラムです。2017年に初めて公開され、プロプレイヤーのDendiとの1対1のライブゲームで実演されましたが、DendiはOpenAI Fiveに敗れました。翌年には、このシステムは5人チームとしてプレイできるレベルまで進化し、プロチームと対戦して勝利する能力を示し始めました

OpenAIは、機械学習の研究対象としてDota 2のような複雑なゲームを選ぶことで、現実世界で見られる予測不可能性や連続性をより正確に捉え、より一般的な問題解決システムを構築できると考えた。OpenAI Fiveで使用されたアルゴリズムとコードは、最終的に同社が開発中の別のニューラルネットワーク、物理的なロボットハンドを制御するものにも借用された。OpenAI Fiveは、ビデオゲーム「スタークラフトII」AlphaStar、ボードゲーム「囲碁」のAlphaGo チェスDeep Blue、テレビゲーム番組「Jeopardy! 」のWatsonなど、人工知能(AI)が人間と対戦して勝利した類似の事例と比較されてきた。

歴史

ボットに使用されるアルゴリズムの開発は2016年11月に開始されました。OpenAIは、ライブストリーミングプラットフォームTwitchで人気があり、 Linuxにネイティブサポートされ、アプリケーションプログラミングインターフェイス(API)を利用できるという理由で、5対5の競争的なビデオゲームであるDota 2をベースとして使用することを決定しました。[ 1 ] 5チームになる前に、8月に行われたこのゲームの年次プレミアチャンピオンシップトーナメントであるThe International 2017で最初の公開デモンストレーションが行われ、ウクライナのプロプレーヤーであるDendiがライブの1対1の対戦でOpenAIボットに敗れました。[ 2 ] [ 3 ]試合後、CTOのGreg Brockmanは、ボットは2週間のリアルタイムでの自己対戦によって学習し、学習ソフトウェアは「外科医のような」複雑なタスクを処理できるソフトウェアを作成するための一歩であると説明しました。[ 4 ] [ 5 ] OpenAIは強化学習と呼ばれる手法を採用しており、ボットは数ヶ月間、1日に何百回も自分自身と対戦することで時間をかけて学習し、敵を倒したりタワーを破壊したりするなどの行動に対して報酬を得ます。[ 6 ] [ 7 ] [ 8 ]

2018年6月までに、ボットの能力は5人からなる完全なチームとして一緒にプレイできるまで拡張され、アマチュアやセミプロの選手のチームを倒すことができた。[ 9 ] [ 6 ] [ 10 ] [ 11 ] The International 2018では、OpenAI Fiveはプロのチームと2試合プレイした。1試合はブラジルを拠点とするpaiN Gamingと、もう1試合は元中国選手のオールスターチームと対戦した。 [ 12 ] [ 13 ] [ 14 ]ボットは両方の試合に負けたが、OpenAIはそれでも成功したベンチャーだと考えており、 Dota 2の最高の選手たちとプレイすることで、将来の試合に向けてアルゴリズムを分析し調整することができたと述べた。[ 15 ]ボットの最後の公開デモンストレーションは2019年4月に行われ、サンフランシスコのライブイベントでThe International 2018のチャンピオンOGとのベスト3シリーズに勝利した。[ 16 ]同月、ボットと対戦する一般公開の4日間のオンラインイベントが開催されました。[ 17 ]そこで、ボットは42,729の公開ゲームをプレイし、99.4%のゲームで勝利しました。[ 18 ]

アーキテクチャ

OpenAI Fiveの各ボットは、Dota開発者APIから抽出された現在のゲーム状態を観測する4096ユニット[ 19 ] LSTMを持つ単層ニューラルネットワークです。ニューラルネットワークは、多数の可能なアクションヘッド(人間のデータは関与しません)を介してアクションを実行し、各ヘッドには意味があります。たとえば、アクションを遅延させるティック数、選択するアクション(ユニットの周囲のグリッドにおけるこのアクションのX座標またはY座標)などです。さらに、アクションヘッドは独立して計算されます。AIシステムは、世界を20,000個の数値のリストとして観測し、8つの列挙値のリストを実行することでアクションを実行します。また、すべてのアクションをエンコードして世界を観測する方法を理解するために、さまざまなアクションとターゲットを選択します。[ 20 ]

OpenAI Fiveは、「Rapid」インフラストラクチャ上で汎用強化学習トレーニングシステムとして開発されました。Rapidは2つのレイヤーで構成されています。1つは数千台のマシンを起動し、それらが互いに「通信」できるように支援するレイヤー、もう1つはソフトウェアを実行するレイヤーです。2018年までに、OpenAI Fiveは256個のGPUと12万8000個のCPUコア上で、ポリシー勾配法である近似ポリシー最適化を用いて、約180年分の強化学習ゲームをプレイしました[ 21 ][ 20 ] [ 22 ]

比較表
OpenAI 1v1ボット (2017)OpenAI Five (2018)
CPUMicrosoft Azure上の 60,000 個の CPU コアGoogle Cloud Platform (GCP) 上の 128,000 個のプリエンプティブ CPU コア
GPUAzure上のK80 GPU 256基GCP上のP100 GPU 256基
収集された経験1日あたり約300年1日あたり約180年
観測サイズ約3.3KB約36.8KB
ゲームプレイ1秒あたりの観測数107.5
バッチサイズ8,388,608件の観測1,048,576件の観測
1分あたりのバッチ数約20約60

他のゲームAIシステムとの比較

OpenAI Five以前にも、Watsonを使ったJeopardy!Deep Blueを使ったチェスAlphaGoを使った囲碁など、AI対人間の実験やシステムが成功裏に使用されてきた。[ 23 ] [ 24 ] [ 25 ] AIシステムを使って人間のプレイヤーと対戦してきた他のゲームと比較すると、Dota 2は以下のように異なる。[ 20 ]

長期的な視点:ボットは毎秒30フレームで動作し、平均試合時間は45分です。これは1ゲームあたり8万ティックに相当します。OpenAI Fiveは4フレームごとに観測し、2万手を生成します。比較すると、チェスは通常40手、囲碁は150手未満で終了します。

部分的観測状態:プレイヤーとその味方は、自分の周囲のマップしか見ることができません。残りのマップは戦場の霧に覆われ、敵ユニットとその動きは見えません。そのため、Dota 2をプレイするには、この不完全なデータに基づいて推論を行うだけでなく、同時に相手が何をしているかを予測する必要があります。比較すると、チェスと囲碁は「完全情報ゲーム」であり、対戦相手から要素を隠すことはありません。[ 26 ]

連続アクション空間Dota 2のゲームでプレイ可能な各キャラクター(ヒーロー)は、他のユニットまたは特定のポジションをターゲットとする数十通りのアクションを実行できます。OpenAI Fiveの開発者は、ヒーローごとに17万通りのアクションを実行できる空間を許容しています。ゲームの永続的な要素を除けば、1ティックあたり平均約1,000通りの有効なアクションが存在します。比較すると、チェスの平均アクション数は35、囲碁は250です。

継続的な観測空間Dota 2は、各チーム5人ずつのヒーロー10人、そして数十の建物とノンプレイヤーキャラクター(NPC)ユニットで構成される広大なマップ上でプレイされます。OpenAIシステムは、開発者のボットAPIを通じてゲームの状態を、人間がアクセスできるすべての情報である20,000個の数値として観測します。チェス盤は約70個のリストで表現されますが、囲碁盤は約400個の列挙体で表現されます。

歓迎

OpenAI Fiveは、AI、テクノロジー、そしてビデオゲームコミュニティ全体から認められました。マイクロソフトの創設者であるビル・ゲイツ氏は、彼らの勝利には「チームワークと協力が必要だった」ため、これを「大きな出来事」と呼びました。[ 8 ] [ 27 ] 1997年にディープ・ブルーAIに敗れたチェスチャンピオンのガルリ・カスパロフ氏は、2018年のザ・インターナショナルでの敗戦にもかかわらず、ボットは最終的には「予想よりも早く、そこに到達するだろう」と述べました。[ 28 ]

MIT Technology Reviewとの会話の中で、AI専門家もOpenAI Fiveシステムを重要な成果とみなし、Dota 2は「非常に複雑なゲーム」であるため、非プロのプレイヤーに勝つことさえ印象的だと指摘しました。[ 26 ] PC Gamerは、プロプレイヤーに対する彼らの勝利は機械学習における重要な出来事だと書いています。[ 29 ]一方、Motherboardは、両チームのヒーロープールが簡素化されていること、そしてボットがコンピュータービジョンを使って画面上のピクセルを解釈するのではなく、APIに直接アクセスできるという事実から、この勝利は「基本的に不正行為」だと書いています。[ 30 ] The Vergeは、これらのボットは、同社の強化学習へのアプローチとAIに関する一般的な哲学が「マイルストーンを生み出している」証拠だと書いています。[ 17 ]

2019年、DeepMindはStarCraft II用の類似ボット、AlphaStarを発表しました。OpenAI Fiveと同様に、AlphaStarは強化学習とセルフプレイを採用しています。The Vergeは、「この種のAI研究の目標は、様々なゲームで人間を打ち負かし、それが可能であることを証明することだけではありません。十分な時間、労力、そしてリソースがあれば、洗練されたAIソフトウェアは、ボードゲームであろうと現代のビデオゲームであろうと、事実上あらゆる競争的な認知課題において人間に勝つことができることを証明することです」と報じています。また、DeepMindとOpenAIの勝利は、強化学習の特定の用途における力強さの証でもあると付け加えています。[ 31 ]

OpenAIは、この技術がデジタル領域以外にも応用できることを期待していました。2018年には、OpenAI Fiveと同じ強化学習アルゴリズムとトレーニングコードを、物理的な物体を操作するためのニューラルネットワークを備えた人間型ロボットハンド「Dactyl」に再利用することに成功しました。 [ 32 ] 2019年には、Dactylはルービックキューブを解きました。[ 33 ]

参考文献

  1. ^ OpenAI. 「OpenAI Five」 . openai.com/five . 2018年9月1日時点のオリジナルよりアーカイブ2018年10月10日閲覧
  2. ^ Savov, Vlad (2017年8月14日). 「私のお気に入りのゲームがキラーAIボットとイーロン・マスクの誇大宣伝に侵略された」 The Verge . 2018年6月26日時点のオリジナルよりアーカイブ。 2018年6月25日閲覧
  3. ^ Frank, Blair Hanley. 「OpenAIのボットがDota 2のトッププレイヤーを圧倒し、プレイヤーは退場」。Venture Beat 。 2017年8月12日時点のオリジナルよりアーカイブ。 2017年8月12日閲覧
  4. ^ OpenAI (2017年8月11日). 「Dota 2」 . blog.openai.com . 2017年8月11日時点のオリジナルよりアーカイブ2017年8月12日閲覧。
  5. ^ OpenAI (2017年8月16日). 「More on Dota 2」 . blog.openai.com . 2017年8月16日時点のオリジナルよりアーカイブ。 2017年8月16日閲覧
  6. ^ a b Simonite, Tom (2018年6月25日). 「ボットはeスポーツ最大規模の試合で人間を出し抜くことができるか?」 Wired . 2018年6月25日時点のオリジナルよりアーカイブ。 2018年6月25日閲覧
  7. ^ Kahn, Jeremy (2018年6月25日). 「イーロン・マスクが支援するボットがビデオゲーム界でAIのブレイクスルーを起こす」 Bloomberg.com . 2018年6月27日時点のオリジナルよりアーカイブ。 2018年6月27日閲覧
  8. ^ a b「ビル・ゲイツ氏、イーロン・マスクが支援する非営利団体のゲーマーボットはAIにおける『大きなマイルストーン』だと語る」CNBC 2018年6月28日。 2018年6月28日時点のオリジナルよりアーカイブ。 2018年6月28日閲覧
  9. ^ OpenAI (2018年7月18日). 「OpenAI Five Benchmark」 . blog.openai.com . 2018年8月26日時点のオリジナルよりアーカイブ。 2018年8月25日閲覧
  10. ^ Vincent, James (2018年6月25日). 「AIボットは1日180年トレーニングし、Dota 2で人間に勝利した」 The Verge . 2018年6月25日時点のオリジナルよりアーカイブ。 2018年6月25日閲覧
  11. ^ Savov, Vlad (2018年8月6日). 「OpenAI Dota 2ボットが元プロチームを破る」 . The Verge . 2018年8月7日時点のオリジナルよりアーカイブ2018年8月7日閲覧。
  12. ^ハットソン、マシュー(2019年7月31日)「誕生からわずか数ヶ月、ゲームをプレイするAIが世界を席巻」Medium2025年6月12日閲覧
  13. ^ Simonite, Tom. 「プロゲーマー、イーロン・マスク支援のAIボットを今のところは阻止」 Wired . 2018年8月24日時点のオリジナルよりアーカイブ。 2018年8月25日閲覧
  14. ^ Quach, Katyanna. 「ゲームオーバー、マシン:ビデオゲームオリンピックで人間が再びOpenAIボットを破る」The Register . 2018年8月25日時点のオリジナルよりアーカイブ2018年8月25日閲覧
  15. ^ OpenAI (2018年8月24日). 「The International 2018: Results」 . blog.openai.com . 2018年8月24日時点のオリジナルよりアーカイブ。 2018年8月25日閲覧
  16. ^ Wiggers, Kyle (2019年4月13日). 「OpenAI Five、プロのDota 2チームを2度破る」 . Venture Beat . 2019年4月13日時点のオリジナルよりアーカイブ。 2019年4月13日閲覧
  17. ^ a b Statt, Nick (2019年4月13日). 「OpenAIのDota 2 AIが世界チャンピオンのeスポーツチームを圧倒、連続勝利」 The Verge . Vox Media. 2019年4月15日時点のオリジナルよりアーカイブ。 2019年4月15日閲覧
  18. ^ Wiggers, Kyle (2019年4月22日). 「OpenAIのDota 2ボット、公開対戦でプレイヤーの99.4%を破る」 . Venture Beat . 2019年4月22日閲覧
  19. ^ 「Dota 2と大規模深層強化学習」(PDF) . OpenAI . 2024年9月26日時点のオリジナルよりアーカイブ(PDF) . 2024年9月29日閲覧
  20. ^ a b c OpenAI (2018年6月25日). 「OpenAI Five」 . blog.openai.com . 2018年6月25日時点のオリジナルよりアーカイブ。 2018年6月25日閲覧
  21. ^ 「なぜAI研究者はゲームに夢中になるのか?」 QUARTZ 2018年8月4日。2018年8月4日時点のオリジナルよりアーカイブ。 2018年8月4日閲覧
  22. ^ Schulman, John; Wolski, Filip; Dhariwal, Prafulla; Radford, Alec; Klimov, Oleg (2017). 「近似ポリシー最適化アルゴリズム」. arXiv : 1707.06347 [ cs.LG ].
  23. ^ Gabbatt, Adam (2011年2月17日). 「IBMのコンピューターWatsonがJeopardyの対決で勝利」 . The Guardian . 2013年9月21日時点のオリジナルよりアーカイブ2011年2月17日閲覧。
  24. ^ 「チェスのグランドマスター、ガルリ・カスパロフは、機械が『人間が対抗できないレベルに到達』したら何が起こるかについて語る」 . Business Insider . 2017年12月29日時点のオリジナルよりアーカイブ。 2017年12月29日閲覧
  25. ^ 「DeepMindの囲碁AIは、もはや人間の助けを借りなくても私たちに勝てる」 Verge 2017年10月18日. 2017年10月18日時点のオリジナルよりアーカイブ。 2017年10月18日閲覧
  26. ^ a bウィル・ナイト(2018年6月25日)「AIアルゴリズムのチームが複雑なコンピュータゲームで人間を圧倒」 MITテックレビュー2018年6月25日閲覧。
  27. ^ビル・ゲイツは、ボットがチームを組んでビデオゲーム『Dota 2』で人間を倒す様子をAIにとって「大きなマイルストーン」と称賛した。 . Business Insider . 2018年6月27日時点のオリジナルよりアーカイブ。 2018年6月27日閲覧
  28. ^ 「Garry Kasparov's Twitter」 . 2018年8月24日. 2018年8月24日閲覧
  29. ^ Park, Morgan (2018年8月11日). 「OpenAI FiveがDota 2のプロチームを圧倒した方法」 . PC Gamer . 2020年5月25日閲覧
  30. ^ Gault, Matthew (2018年8月17日). 「OpenAIが『Dota 2』で人間に勝っているのは、基本的にチート行為だからだ」 Vice . 2020年5月25日閲覧
  31. ^ Statt, Nick (2019年10月30日). 「DeepMindのStarCraft 2 AIは、現在、全人間プレイヤーの99.8%よりも優れている」 The Verge . 2020年5月25日閲覧
  32. ^ OpenAI;アンドリホビッチ、マルシン。ベイカー、ボーエン。チョシエジ、マチェク。ユゼフォヴィチ、ラファウ;ボブ・マクグルー。パチョッキ、ヤクブ。ペトロン、アーサー。プラパート、マティアス;パウエル、グレン。レイ、アレックス。シュナイダー、ジョナス。シドル​​、シモン。トービン、ジョシュ。ウェンダー、ピーター。ウェン、リリアン。ザレンバ、ヴォイチェフ (2019)。 「器用な手の操作を学ぶ」。arXiv : 1808.00177v5 [ cs.LG ]。
  33. ^ OpenAI;アッカヤ、イルゲ。アンドリホビッチ、マルシン。チョシエジ、マチェク。リトウィン、マテウシュ。ボブ・マクグルー。ペトロン、アーサー。パイノ、アレックス。プラパート、マティアス;パウエル、グレン。リバス、ラファエロ(2019)。 「ロボットハンドでルービックキューブを解く」。arXiv : 1910.07113v1 [ cs.LG ]。