人工知能と機械学習技術は、ビデオゲームにおいて、ノンプレイヤーキャラクター(NPC)の制御、手続き型コンテンツ生成(PCG)、ディープラーニングベースのコンテンツ生成など、幅広い用途に利用されています。機械学習は人工知能のサブセットであり、過去のデータを用いて予測・分析モデルを構築します。これは、探索木やエキスパートシステムといった従来の人工知能手法とは大きく対照的です。
ゲーム分野における機械学習技術に関する情報は、ほとんどのゲーム会社が知的財産に関する具体的な情報を公開しないことを選択しているため、研究プロジェクトを通じて公開されることがほとんどです。ゲームにおける機械学習の最もよく知られている応用は、複雑な戦略ゲームでプロの人間プレイヤーと競争するディープラーニングエージェントの使用でしょう。Atari / ALE、Doom、Minecraft、StarCraft、カーレースなどのゲームでは、機械学習が大きく応用されてきました。 [1]チェスや囲碁など、もともとビデオゲームとして存在していなかった他のゲームも、機械学習の影響を受けています。[2]
関連する機械学習技術の概要

ディープラーニング
ディープラーニングは機械学習のサブセットであり、複雑なタスクを学習する人工ニューラルネットワーク(ANN)の活用に重点を置いています。ディープラーニングは、入力から段階的に情報を抽出するために、複数の層のANNやその他の技術を使用します。この複雑な階層化アプローチのため、ディープラーニングモデルの学習と実行には、多くの場合、強力なマシンが必要になります。
畳み込みニューラルネットワーク
畳み込みニューラルネットワーク(CNN)は、画像データの解析によく用いられる特殊なANNです。このタイプのネットワークは、位置に依存しないパターンである並進不変パターンを学習することができます。CNNはこれらのパターンを階層的に学習することができ、つまり、前の畳み込み層はより小さな局所パターンを学習し、後の層は前のパターンに基づいてより大きなパターンを学習します。[3] CNNは視覚データを学習できるため、ゲームにおけるディープラーニングのツールとして広く利用されています。[4] [5]
リカレントニューラルネットワーク
リカレントニューラルネットワーク(RNN)は、データシーケンスを一度に全て処理するのではなく、一度に一つずつ順番に処理するように設計されたANNの一種です。RNNはシーケンスの各部分を処理し、現在のシーケンス部分と、現在のシーケンスの以前の部分の記憶を用いて出力を生成します。このタイプのANNは、音声認識などの時間的順序に大きく依存するタスクにおいて非常に効果的です。RNNには内部構成の異なる複数のタイプがあり、基本的な実装では勾配消失問題のために長期記憶が不足しているため、新しい実装ではほとんど使用されていません。[3]
長期短期記憶
長短期記憶(LSTM)ネットワークは、単純なRNNに見られる勾配消失問題に対処するために設計されたRNNの特定の実装です。この問題は、入力されたシーケンスの現在の部分の出力を計算する際に、以前の部分を徐々に「忘れてしまう」ことにつながります。LSTMは、追加の入出力を用いて長期データを追跡する精巧なシステムを追加することで、この問題を解決します。[3] LSTMは様々な分野で非常に優れた成果を上げており、ゲームにおけるいくつかの記念碑的なディープラーニングエージェントに使用されています。[6] [4]
強化学習
強化学習とは、報酬と罰を用いてエージェントを訓練するプロセスです。エージェントへの報酬または罰の与え方は、問題に大きく依存します。例えば、ゲームに勝ったエージェントには正の報酬を与え、負けたエージェントには負の報酬を与えるといった具合です。強化学習は機械学習の分野で広く用いられており、 Q学習、ポリシー探索、ディープQネットワークなどの手法に見られます。ゲームとロボット工学の両方の分野で優れた成果を上げています。[7]
神経進化
ニューロエボリューションは、ニューラルネットワークと進化アルゴリズムの両方を活用します。多くのニューラルネットワークが勾配降下法を用いるのに対し、ニューロエボリューションモデルは進化アルゴリズムを用いてネットワーク内のニューロンを更新します。研究者たちは、このプロセスは局所解に陥る可能性が低く、最先端の深層学習技術よりも高速である可能性があると主張しています。[8]
ディープラーニングエージェント
機械学習エージェントは、NPCとして機能するのではなく、人間のプレイヤーの代わりに利用されてきました。NPCは、ビデオゲームに意図的にゲームプレイの一部として追加されています。ディープラーニングエージェントは、人間や他の人工知能エージェントとの競争において、目覚ましい成果を上げています。[2] [9]
チェス
チェスはターン制の戦略ゲームであり、盤面の計算量が多いことから、AIにとって難しい問題と考えられています。同様の戦略ゲームは、多くの場合、何らかの形のミニマックス木探索を用いて解かれます。この種のAIエージェントは、1997年の歴史的なディープ・ブルー対ガルリ・カスパロフ戦のように、プロの人間プレイヤーに勝利したことが知られています。それ以来、機械学習エージェントは、以前のAIエージェントを凌駕するほどの成功を収めています。
行く
囲碁は、チェスよりもさらに難しいAI問題とされる、ターン制ストラテジーゲームです。囲碁の状態空間は約10の170乗通りですが、チェスの盤面状態は10の120乗通りです。近年の深層学習モデルが登場する以前は、AI囲碁エージェントはアマチュアレベルのプレイしかできませんでした。[5]
アルファ碁
Googleが2015年に開発したAlphaGoは、プロの囲碁棋士に勝利した最初のAIエージェントでした。[5] AlphaGoは、モンテカルロ木探索(MCTS)の重み付けを学習するためにディープラーニングモデルを使用しました。このディープラーニングモデルは、2つのANN、対戦相手の潜在的な動きの確率を予測するポリシーネットワーク、そして与えられた状態における勝率を予測するバリューネットワークで構成されていました。ディープラーニングモデルにより、エージェントはバニラのMCTSよりも効率的に潜在的なゲーム状態を探索できます。このネットワークは、最初に人間のプレイヤーとの対戦で学習され、その後、自身との対戦でさらに学習されました。
アルファ碁ゼロ
AlphaGoの別の実装であるAlphaGo Zeroは、自身との対戦のみで完全に学習することができた。以前のエージェントの能力まで迅速に到達することができた。[10]
スタークラフトシリーズ
StarCraftとその続編であるStarCraft IIは、リアルタイムストラテジー(RTS)ビデオゲームでありとDeepMindは協力し、 AI研究のためのStarCraft 2公開環境を公開しました。 [11]両ゲームでは様々なディープラーニング手法がテストされていますが、チートが有効になっている場合やゲームの熟練プレイヤーがいる場合、ほとんどのエージェントはデフォルトのAIを上回るパフォーマンスを発揮することが困難です。 [1]
アルファスター
Alphastarは、ゲーム内での優位性なしにプロのStarCraft 2プレイヤーに勝利した最初のAIエージェントでした。エージェントのディープラーニングネットワークは、当初はゲーム状態の簡略化されたズームアウトバージョンから入力を受け取っていましたが、後に他の人間のプレイヤーと同じようにカメラを使用してプレイするように更新されました。開発者はモデルのコードやアーキテクチャを公開していませんが、関係深層強化学習、長期短期記憶、自己回帰ポリシーヘッド、ポインタネットワーク、集中値ベースラインなど、いくつかの最先端の機械学習技術を挙げています。[4] Alphastarは当初、教師あり学習でトレーニングされ、基本戦略を学習するために多くの人間のゲームのリプレイを視聴しました。次に、異なるバージョンの自分自身に対してトレーニングし、強化学習によって改善されました。最終バージョンは非常に成功しましたが、プロトスのミラーマッチアップで特定のマップでプレイするようにのみトレーニングされました。
ドータ2
Dota 2はマルチプレイヤーオンラインバトルアリーナ(MOBA)ゲームです。他の複雑なゲームと同様に、従来のAIエージェントはプロの人間プレイヤーと同等のレベルで競争することができませんでした。Dota 2で試みられたAIエージェントに関する唯一広く公開されている情報は、 OpenAIのディープラーニングによるFiveエージェント です
オープンAIファイブ
OpenAI Fiveは、各ヒーローを学習するために、個別の長短期記憶ネットワークを活用しました。256基のGPUと12万8000個のCPUコアを搭載したシステム上で、近接政策学習(Proximal Policy Learning)と呼ばれる強化学習手法を用いてトレーニングを行いました。[6] Fiveは数ヶ月にわたってトレーニングを行い、毎日180年分のゲーム経験を積み重ねた後、プロプレイヤーと対戦しました。[12] [13]そして最終的に、2019年の一連の試合で、2018年のDota 2 eスポーツチャンピオンチームを破りました。
惑星の消滅
Planetary Annihilationは、大規模な戦争に焦点を当てたリアルタイムストラテジーゲームです。開発者はデフォルトのAIエージェントにANNを使用しています。 [14]
最高司令官2
Supreme Commander 2はリアルタイムストラテジー(RTS)ビデオゲームです。このゲームでは、多層パーセプトロン(MLP)を用いて、遭遇した敵ユニットに対する小隊の反応を制御します。MLPは合計4つ使用され、それぞれ陸軍、海軍、爆撃機、戦闘機の小隊タイプに1つずつ使用されます。 [15]
グランツーリスモ
グランツーリスモは、リアルなレースとドライビング体験をシミュレートするPlayStation向けゲームシリーズです。2022年、ソニーのAI研究者は、世界トップクラスのeスポーツドライバーと同等、あるいはそれ以上のパフォーマンスでグランツーリスモをプレイできるエージェント「Sophy」を発表しました。 [16] [17]実装されたソリューションは、モデルフリーの深層強化学習に基づいています。
一般化されたゲーム
複数のゲームをプレイできる機械学習エージェントを開発する試みはこれまで行われてきました。これらの「汎用」ゲームエージェントは、ゲーム間の共通特性に基づいてゲームを理解するように訓練されます。
アルファゼロ
AlphaZeroは、将棋、チェス、囲碁をプレイできるAlphaGo Zeroの改良版です。この改良版エージェントは、ゲームの基本ルールのみから開始し、完全に自己学習によって訓練されます。DeepMindは、この汎用エージェントを、囲碁では以前のバージョンのAlphaGo Zeroに匹敵するレベルまで訓練し、他の2つのゲームでもトップクラスのエージェントと互角に戦えるようにしました。[2]
ディープラーニングエージェントの長所と短所
機械学習エージェントは、多くのゲームデザインコースではあまり扱われていません。2015年版のAlphaGoでさえ、強力なレベルまで訓練するには数百のCPUとGPUが必要だったことから、ゲームにおける機械学習エージェントのこれまでの利用は、あまり現実的ではなかった可能性があります。[2]そのため、非常に効果的なディープラーニングエージェントの開発は、大企業や非常に裕福な個人に限られる可能性があります。ニューラルネットワークベースのアプローチは、これらの強力なマシンでも数週間かかる場合があります。[4]
ANNベースのモデルを効果的に訓練するという問題は、強力なハードウェア環境だけに限りません。データを表現し、そこから意味のあることを学習する良い方法を見つけることも、しばしば難しい問題です。ANNモデルは、非常に特殊なデータに過剰適合することが多く、より一般化された場合にはパフォーマンスが低下します。AlphaStarもこの弱点を示しており、プロのプレイヤーに勝つことができたにもかかわらず、ミラープロトスマッチアップをプレイしているときに、単一のマップでしか勝つことができませんでした。[4] OpenAI Fiveもこの弱点を示しており、ゲーム全体の中で非常に限られたヒーロープールに直面したときにのみ、プロのプレイヤーに勝つことができました。[13]この例は、より一般化された状況でパフォーマンスするようにディープラーニングエージェントを訓練することがいかに難しいかを示しています。
機械学習エージェントは、様々なゲームで大きな成功を収めています。[12] [2] [4]しかし、あまりにも有能なエージェントは、新規プレイヤーやカジュアルプレイヤーにとってゲームが難しくなりすぎるリスクもあります。研究によると、プレイヤーのスキルレベルをはるかに超える難易度の課題は、低レベルのプレイヤーの楽しみを損なうことが示されています。[18]これらの高度に訓練されたエージェントは、特定のゲームで多くの時間を経験した非常に熟練した人間のプレイヤーに対してのみ望ましい選択肢となる可能性があります。これらの要因を考慮すると、非常に効果的なディープラーニングエージェントは、大規模な競争シーンを持つゲームでのみ望ましい選択肢となる可能性があり、熟練した人間のプレイヤーの代わりの練習オプションとして機能する可能性があります。
コンピュータビジョンベースのプレーヤー
コンピュータービジョンは、コンピューターにデジタル画像や動画を高度に理解させるトレーニングに重点を置いています。多くのコンピュータービジョン技術は機械学習の要素も取り入れており、様々なビデオゲームに応用されています。このコンピュータービジョンの応用は、視覚データを用いてゲームイベントを解釈することに重点を置いています。人工知能エージェントの中には、モデルフリー技術を用いて、ゲーム内部のロジックに直接接続することなく、動画データのみを入力としてゲームのプレイ方法を学習するケースもあります。
ポン
アンドレイ・カルパシーは、隠れ層が1つだけの比較的単純なニューラルネットワークが、画面データのみに基づいてポンをプレイするように訓練できることを実証しました。 [19] [20]
アタリゲーム
2013年、 DeepMindのチームは、ディープQラーニングを用いて、画面データから様々なAtariビデオゲーム(Beamrider、Breakout、Enduro、Pong、Q*bert、Seaquest、Space Invaders )をプレイできることを実証しました。 [21]チームは研究を拡張し、画面データに基づいて50種類以上のAtariゲームのルールを「学習」し、勝利戦略を開発できるMuZeroと呼ばれる学習アルゴリズムを作成しました。[22] [23]
ドゥーム
Doom(1993)は一人称視点シューティングゲーム(FPS)です。カーネギーメロン大学の学生研究者たちは、コンピュータビジョン技術を用いて、ゲームからの画像ピクセル入力のみを用いてゲームをプレイできるエージェントを作成しました。学生たちは畳み込みニューラルネットワーク(CNN)層を用いて入力画像データを解釈し、有効な情報をリカレントニューラルネットワーク(RNN)に出力し、ゲームの動きを出力しました。 [24]
スーパーマリオ
ゲームをプレイするためのビジョンベースのディープラーニング技術の他の用途としては、画像入力のみを使用してスーパーマリオブラザーズをプレイすることや、トレーニングにディープQラーニングを使用することなどがあります。[19]
マインクラフト
OpenAIの研究者たちは、必要な人間の入力をコード化したMinecraftのプレイ動画約2000時間分を作成し、その入力から得られる動画フィードバックを理解できるよう機械学習モデルを訓練しました。その後、研究者たちはそのモデルをYouTubeで提供されている7万時間分のMinecraftプレイ動画と組み合わせ、モデルが人間の行動に一致する入力をどれだけ正確に生成し、そこからさらに学習できるかを検証しました。例えば、ダイヤモンドのツルハシツールを作成する手順やプロセスを学習できるかどうかなどです。[25] [26]
ゲームにおける手続き型コンテンツ生成のための機械学習
機械学習は、コンテンツの推奨と生成に使用するための研究が行われています。手続き型コンテンツ生成とは、データを手動ではなくアルゴリズムで作成するプロセスです。このタイプのコンテンツは、人間の開発者による絶え間ない追加に頼ることなくゲームに再プレイ性を追加するために使用されます。 PCGはさまざまなゲームのさまざまなタイプのコンテンツ生成に使用されており、例としては、Borderlands 2の武器、[27] 、 Minecraftのすべてのワールドレイアウト[28] 、 No Man's Skyの全宇宙などがあります。[29] PCGへの一般的なアプローチには、文法、検索ベースのアルゴリズム、論理プログラミングを伴う手法が含まれます。[30]これらのアプローチでは、人間が可能なコンテンツの範囲を手動で定義する必要があり、つまり、人間の開発者が、生成されたコンテンツの有効な部分を構成する機能を決定します。機械学習は、理論的には、トレーニング用の例が与えられるとこれらの機能を学習できるため、開発者がコンテンツ設計の詳細を指定するという複雑なステップが大幅に削減されます。[31]コンテンツ生成に用いられる機械学習技術には、長短期記憶(LSTM) 、リカレントニューラルネットワーク(RNN)、敵対的生成ネットワーク(GAN)、K平均法クラスタリングなどがある。これらの技術のすべてがANNを利用しているわけではないが、深層学習の急速な発展により、ANNを利用する技術の可能性は大きく高まっている。[31]
銀河軍拡競争
Galactic Arms Raceは、ニューロエボリューション(PCG)を活用したスペースシューティングゲームで、プレイヤー固有の武器を生成します。このゲームは2010年のIndie Game Challengeのファイナリストに選出され、関連する研究論文は2009年のIEEE Conference on Computational Intelligence and Gamesで最優秀論文賞を受賞しました。開発者はcgNEATと呼ばれるニューロエボリューション技術を用いて、プレイヤーの好みに基づいて新しいコンテンツを生成します。 [32]
生成される各アイテムは、構成パターン生成ネットワーク(CPPN)と呼ばれる特殊なANNによって表現されます。ゲームの進化フェーズでは、cgNEATはプレイヤーの使用状況やその他のゲームプレイ指標に基づいて現在のアイテムの適応度を計算します。この適応度スコアは、どのCPPNが新しいアイテムを生成するために複製するかを決定するために使用されます。最終的には、プレイヤーの好みに基づいて新しい武器効果が生成されます。
スーパーマリオブラザーズ
スーパーマリオブラザーズは、多くの研究者によってPCGレベル作成のシミュレーションに使用されてきました。様々な手法を用いた様々な試みが行われています。2014年のバージョンでは、nグラムを使用してトレーニングに使用したレベルに類似したレベルを生成しましたが、後にMCTSを使用して生成をガイドすることで改善されました。 [33]これらの生成は、プレイヤーの動きなどのゲームプレイ指標を考慮すると最適ではないことが多く、2017年の別の研究プロジェクトでは、マルコフ連鎖を使用してプレイヤーの動きに基づいてレベルを生成することでこの問題を解決しようとしました。 [34]これらのプロジェクトは人間によるテストを受けていないため、人間のプレイアビリティ基準を満たしていない可能性があります。
ゼルダの伝説
カリフォルニア大学サンタクルーズ校の研究者たちは、『ゼルダの伝説』のPCGレベル作成に取り組みました。この試みでは、ベイジアンネットワークを用いて既存レベルから高レベルの知識を学習し、主成分分析(PCA)を用いてこれらのレベルの異なる低レベルの特徴を表現しました。 [35]研究者たちはPCAを用いて生成されたレベルと人間が作成したレベルを比較し、両者が非常に類似していることを発見しました。このテストには、生成されたレベルのプレイアビリティや人間によるテストは含まれていませんでした。
ゲームにおけるコンテンツ生成のためのディープラーニング
まず敵対的生成ネットワーク(GAN)を導入し、次に拡散モデルを導入することで、非手続き型アプローチを用いてゲーム内コンテンツを実行時に生成することが可能になりました。例としては、以下のようなものが挙げられます。
- InZOI Studioが開発し、Kraftonがパブリッシュしたライフシミュレーションゲーム「InZOI」(早期アクセス版あり)で利用可能な3Dプリンター。ユーザーが提供した2D画像ファイルを入力すると、3Dプリンターが対応する3Dオブジェクトを生成し、ユーザーはそれをゲーム内に配置したり、アバターの装飾に使用したりできます。[36]
- PlayerUnknown Productionsが開発したサバイバルゲーム『Prologue: Go Wayback!』(早期アクセス:発表予定、2025年初頭にプレイテスト実施中)に実装された地形生成ソリューション。このアプローチにより、ゲームを起動するたびに新しいゲームマップを生成することができます。[37]
音楽生成
音楽はビデオゲームでよく見られ、様々な状況やストーリーの展開に影響を与える重要な要素となり得る。機械学習は音楽生成の実験分野で利用されており、生の非構造化データを処理し、音楽という多様な分野に適用可能な高レベルの表現を形成するのに特に適している。[38]これまで試みられてきた手法のほとんどは、何らかの形でANNを使用している。その手法には、基本的なフィードフォワードニューラルネットワーク、オートエンコーダ、制限付きボルツマンマシン、リカレントニューラルネットワーク、畳み込みニューラルネットワーク、敵対的生成ネットワーク(GAN)、および複数の手法を組み合わせた複合アーキテクチャなどが含まれる。[38]
VRAE ビデオゲームメロディーシンボリック音楽生成システム
2014年に発表された「変分回帰型オートエンコーダ」に関する研究論文では、8種類の異なるビデオゲームの楽曲に基づいて音楽を生成する試みがなされました。このプロジェクトは、ビデオゲームの音楽のみを対象とした数少ない研究の一つです。このプロジェクトのニューラルネットワークは、学習に使用したゲームのデータと非常に類似したデータを生成することができました。[39]生成されたデータは、良質な音楽にはつながりませんでした。
参考文献
- ^ ab Justesen, Niels; Bontrager, Philip; Togelius, Julian; Risi, Sebastian (2019). 「ビデオゲームプレイのためのディープラーニング」. IEEE Transactions on Games . 12 : 1– 20. arXiv : 1708.07902 . doi :10.1109/tg.2019.2896986. ISSN 2475-1502. S2CID 37941741.
- ^ abcde Silver, David; Hubert, Thomas; Schrittwieser, Julian; Antonoglou, Ioannis; Lai, Matthew; Guez, Arthur; Lanctot, Marc; Sifre, Laurent; Kumaran, Dharshan (2018-12-06). 「チェス、将棋、囲碁を自己対戦でマスターする汎用強化学習アルゴリズム」(PDF) . Science . 362 (6419): 1140– 1144. Bibcode :2018Sci...362.1140S. doi : 10.1126/science.aar6404 . ISSN 0036-8075. PMID 30523106. S2CID 54457125.
- ^ abc Chollet, Francois (2017-10-28). Pythonによるディープラーニング. Manning Publications Company. ISBN 9781617294433. OCLC 1019988472.
- ^ abcdef 「AlphaStar:リアルタイムストラテジーゲーム『StarCraft II』をマスターする」DeepMind、2019年1月24日。 2019年6月4日閲覧。
- ^ abc シルバー、デイビッド;ファン、アジャ。マディソン、クリス・J。グエズ、アーサー。シフレ、ローラン。ファン・デン・ドリーシェ、ジョージ。シュリットヴィーザー、ジュリアン。アントノグルー、イオアニス。パニールシェルヴァム、ヴェーダ(2016 年 1 月)。 「ディープ ニューラル ネットワークとツリー検索で囲碁をマスターする」。自然。529 (7587): 484–489。書誌コード:2016Natur.529..484S。土井:10.1038/nature16961. ISSN 0028-0836。PMID 26819042。S2CID 515925 。
- ^ ab "OpenAI Five". OpenAI . 2018年6月25日. 2019年6月4日閲覧。
- ^ ラッセル、スチュアート・J.(スチュアート・ジョナサン)(2015年)『人工知能:現代的アプローチ』ノーヴィグ、ピーター(インド版第3版)ノイダ、インド。ISBN 9789332543515. OCLC 928841872.
{{cite book}}: CS1 メンテナンス: 場所の発行元が見つかりません (リンク) - ^ Clune, Jeff; Stanley, Kenneth O.; Lehman, Joel; Conti, Edoardo; Madhavan, Vashisht; Such, Felipe Petroski (2017-12-18). 「ディープニューロエボリューション:強化学習のためのディープニューラルネットワークのトレーニングにおける遺伝的アルゴリズムは競争力のある代替手段である」arXiv : 1712.06567 [cs.NE].
- ^ ジェン、ジャッキー・シュンジエ、ワトソン、イアン(2013)「リアルタイムストラテジーゲーム『スタークラフト:ブルード・ウォー』におけるマイクロマネジメントのためのニューロエボリューション」、AI 2013:人工知能の進歩、コンピュータサイエンスの講義ノート、第8272巻、シュプリンガー・インターナショナル・パブリッシング、pp. 259– 270、CiteSeerX 10.1.1.703.5110、doi:10.1007/978-3-319-03680-9_28、ISBN 9783319036793
- ^ シルバー, デイビッド; シュリットヴィーザー, ジュリアン; シモニャン, カレン; アントノグル, イオアニス; フアン, アジャ; ゲズ, アーサー; ヒューバート, トーマス; ベイカー, ルーカス; ライ, マシュー (2017年10月). 「人間の知識なしに囲碁をマスターする」(PDF) . Nature . 550 (7676): 354– 359. Bibcode :2017Natur.550..354S. doi :10.1038/nature24270. ISSN 0028-0836. PMID 29052630. S2CID 205261034.
- ^ Tsing, Rodney; Repp, Jacob; Ekermo, Anders; Lawrence, David; Brunasso, Anthony; Keet, Paul; Calderone, Kevin; Lillicrap, Timothy; Silver, David (2017-08-16). 「StarCraft II:強化学習への新たな挑戦」. arXiv : 1708.04782 [cs.LG].
- ^ ab "OpenAI Five". OpenAI . 2019年6月4日閲覧。
- ^ ab 「OpenAI Fiveのトレーニング方法」OpenAI 2019年4月15日. 2019年6月4日閲覧。
- ^ xavdematos (2014年6月7日). 「殺人を学習するコンピューターと、その混沌をプログラムした男」Engadget . 2019年6月4日閲覧。
- ^ Robbins, Michael (2019年9月6日). 「ニューラルネットワークを用いたエージェントの脅威対応制御」(PDF) . Game AI Pro 360: 戦術と戦略ガイド. CRC Press: 55–64 . doi :10.1201/9780429054969-5. ISBN 9780429054969. S2CID 208122019 . 2022年11月30日閲覧.
- ^ Wurman, Peter R.; Barrett, Samuel; Kawamoto, Kenta; MacGlashan, James; Subramanian, Kaushik; Walsh, Thomas J.; Capobianco, Roberto; Devlic, Alisa; Eckert, Franziska; Fuchs, Florian; Gilpin, Leilani; Khandelwal, Piyush; Kompella, Varun; Lin, HaoChih; MacAlpine, Patrick (2022年2月). 「深層強化学習でグランツーリスモのチャンピオンドライバーを凌駕する」 . Nature . 602 (7896): 223– 228. Bibcode :2022Natur.602..223W. doi :10.1038/s41586-021-04357-7. ISSN 1476-4687. PMID 35140384。
- ^ 「グランツーリスモ ソフィー」www.gran-turismo.com . 2025年4月13日閲覧。
- ^ Sweetser, Penelope; Wyeth, Peta (2005-07-01). 「GameFlow」. Computers in Entertainment . 3 (3): 3. doi :10.1145/1077246.1077253. ISSN 1544-3574. S2CID 2669730.
- ^ ab Jones, M. Tim (2019年6月7日). 「機械学習とゲーム」. IBM Developer . 2020年2月3日閲覧。
- ^ 「ディープ強化学習:ピクセルからのPong」. karpathy.github.io . 2020年2月3日閲覧。
- ^ Mnih, Volodymyr; Kavukcuoglu, Koray; Silver, David; Graves, Alex; Antonoglou, Ioannis; Wierstra, Daan; Riedmiller, Martin (2013-12-19). 「深層強化学習を用いたAtariのプレイ」. arXiv : 1312.5602 [cs.LG].
- ^ Bonifacic, Igor (2020年12月23日). 「DeepMindの最新AIはルールを知らなくてもゲームをマスターできる」Engadget . 2020年12月23日閲覧。
- ^ Schrittwieser, Julian; Antonoglou, Ioannis; Hubert, Thomas; Simonyan, Karen; Sifre, Laurent; Schmitt, Simon; Guez, Arthur; Lockhart, Edward; Hassabis, Demis; Graepel, Thore; Lillicrap, Timothy; Silver, David (2020). 「学習済みモデルを用いたプランニングによるAtari、囲碁、チェス、将棋のマスター」. Nature . 588 (7839): 604– 609. arXiv : 1911.08265 . Bibcode :2020Natur.588..604S. doi :10.1038/s41586-020-03051-4. PMID: 33361790. S2CID: 208158225.
- ^ Lample, Guillaume; Chaplot, Devendra Singh (2017). 「深層強化学習を用いたFPSゲームのプレイ」.第31回AAAI人工知能会議議事録. AAAI'17. サンフランシスコ、カリフォルニア州、米国: AAAI Press: 2140– 2146. arXiv : 1609.05521 . Bibcode :2016arXiv160905521L.
- ^ マシューズ、デイビッド(2022年6月27日)「7万時間分のYouTube動画を使ってマインクラフトをプレイするように訓練されたAI」IGN 。 2022年7月8日閲覧。
- ^ Baker, Bowen; Akkaya, Ilge; Zhokhov, Peter; Huizinga, Joost; Tang, Jie; Ecoffet, Adrien; Houghton, Brandon; Sampedro, Raul; Clune, Jeff (2022). 「ビデオ事前トレーニング(VPT):ラベルなしのオンライン動画の視聴による演技学習」. arXiv : 2206.11795 [cs.LG].
- ^ Yin-Poole, Wesley (2012年7月16日). 「『ボーダーランズ2』には武器がいくつあるか?」Eurogamer . 2019年6月4日閲覧。
- ^ “地形生成 パート1”. The Word of Notch . 2019年3月11日時点のオリジナルよりアーカイブ。 2019年6月4日閲覧。
- ^ パーキン、サイモン。「アルゴリズムによって創造されたSF宇宙」。MITテクノロジーレビュー。2019年6月4日閲覧。
- ^ Togelius, Julian; Shaker, Noor; Nelson, Mark J. (2016)、「序論」、ゲームにおける手続き型コンテンツ生成、計算合成と創造システム、Springer International Publishing、pp. 1– 15、doi :10.1007/978-3-319-42716-4_1、ISBN 9783319427140
- ^ ab Summerville, Adam; Snodgrass, Sam; Guzdial, Matthew; Holmgard, Christoffer; Hoover, Amy K.; Isaksen, Aaron; Nealen, Andy; Togelius, Julian (2018年9月). 「Procedural Content Generation via Machine Learning (PCGML)」. IEEE Transactions on Games . 10 (3): 257– 270. arXiv : 1702.00539 . Bibcode :2018ITGam..10..257S. doi :10.1109/tg.2018.2846639. ISSN 2475-1502. S2CID 9950600.
- ^ Hastings, Erin J.; Guha, Ratan K.; Stanley, Kenneth O. (2009年9月). 「銀河軍拡競争ビデオゲームにおける進化するコンテンツ」(PDF) . 2009 IEEE 計算知能とゲームに関するシンポジウム. IEEE. pp. 241– 248. doi :10.1109/cig.2009.5286468. ISBN 9781424448142. S2CID 16598064. 2020年11月12日に オリジナル(PDF)からアーカイブ。 2020年2月22日閲覧。
- ^ サマービル、アダム. 「MCMCTS PCG 4 SMB: モンテカルロ木探索によるプラットフォームレベル生成のガイド」. www.aaai.org . 2019年6月4日閲覧。
- ^ Snodgrass, Sam; Ontañón, Santiago (2017年8月). 「ビデオゲームのレベル生成のためのプレイヤー移動モデル」.第26回国際人工知能合同会議議事録. カリフォルニア州: 国際人工知能合同会議機構. pp. 757– 763. doi : 10.24963/ijcai.2017/105 . ISBN 9780999241103。
- ^ サマービル、ジェームズ. 「Sampling Hyrule: アクションロールプレイングゲームのためのマルチテクニックによる確率的レベル生成」. www.aaai.org . 2019年6月4日閲覧。
- ^ Rizwan, Rabiya (2025年4月2日). 「InZoi:3Dプリンターの使い方」TheGamer . 2025年4月13日閲覧。
- ^ 「Prologueにおけるガイド付き生成:ML生成風景」. playerunknownproductions.net . 2025年4月13日閲覧。
- ^ ab パシェ、フランソワ=ダヴィッド;ハジェレス、ガエタン。ブリオ、ジャン・ピエール (2017-09-05)。 「音楽生成のためのディープラーニング技術 - 調査」。arXiv : 1709.01620 [cs.SD]。
- ^ ファン アメルスフォールト、ジュースト R.;ファビウス、オットー (2014-12-20)。 「変分反復型オートエンコーダー」。arXiv : 1412.6581 [stat.ML]。