
マッチ箱教育可能ゼロクロスエンジン(機械教育可能ゼロクロスエンジンまたはMENACEと呼ばれることもある)は、 1961年に人工知能研究者のドナルド・ミチーと同僚のロジャー・チェンバースによって設計・構築された、304個のマッチ箱で作られた機械式コンピュータでした。任意のプレイ状態に応じて動きを返すことでゼロとクロス(三目並べ)のゲームで人間の相手と対戦し、強化学習によって戦略を改良するように設計されました。これは最初のタイプの人工知能の1つでした。
ミチーとチェンバースはコンピュータをすぐには利用できなかったため、マッチ箱を使ってエンジンを構築することでこの問題を解決した。[ 1 ]彼らが使用したマッチ箱はそれぞれ、○と×のグリッドの可能な配置を1つずつ表していた。コンピュータが最初にプレイする際、現在の配置に基づいてランダムに手順を選択する。ゲームを重ねるにつれて、強化ループによって、負けにつながる戦略は失格となり、勝ちにつながる戦略は補充されるようになった。ミチーは1961年にMENACEとのトーナメントを開催し、様々なオープニングを試した。
MENACEはMichieとの初対戦で、その戦略に人工知能が効果的に活用されていることを実証しました。MENACEの重み初期化とMENACEで使用されるBOXESアルゴリズムに関するMichieの論文は、コンピュータサイエンス研究の分野で高い評価を得ました。Michieは機械学習研究への貢献が認められ、実機コンピュータ上でMENACEのシミュレーションをプログラムする依頼を2度も受けました。

ドナルド・ミチー(1923–2007)は、第二次世界大戦中、ドイツのマニー暗号解読チームに所属していました。[ 2 ] 15年後、彼は初期の畳み込みニューラルネットワークを用いて、自身の数学的・計算的才能をさらに発揮したいと考えました。当時、そのような用途にコンピュータ機器は入手できず、[ 3 ]ミチー自身もすぐに使えるコンピュータを持っていなかったため、[ 3 ]彼は人工知能をより難解な形式で展示・実証することを決意し、マッチ箱とビーズを使って機能的な機械式コンピュータを製作しました。[ 4 ] [ 5 ]
MENACEは、そのような機械は不可能だと仮定したコンピュータサイエンスの同僚との賭けの結果として構築されました。 [ 6 ]ミチーは、各マッチ箱を収集して定義するという作業を「楽しいプロジェクト」として引き受け、後にデモンストレーションツールに変えました。[ 1 ]ミチーは1963年にMENACEに関するエッセイ[ 5 ]と「ゲーム学習の機械化に関する実験」、およびRAチェンバースと共著したBOXESアルゴリズムに関するエッセイ[ 1 ]を完成させ、スコットランドのエディンバラのホープパークスクエアにAI研究ユニットを設立しました。[ 7 ]
MENACEは、オマケとクロスの連続マッチをプレイすることで学習しました。毎回、人間プレイヤーが各手に対応するビーズを没収することで、負け戦略を排除しました。[ 5 ] MENACEは、追加のビーズを提供することで、手の可能性を高めることで、勝ち戦略を強化しました。[ 8 ]これは、強化ループ(アルゴリズムをループさせ、失敗した戦略を捨てて勝ち戦略だけを残すという図式的なアルゴリズム)の最も初期のバージョンの一つでした。 [ 5 ]このモデルは完全にランダムな状態から始まり、徐々に学習します。[ 9 ]
MENACEは、304個のマッチ箱を箪笥のように接着して作られました。[ 10 ]各箱にはコード番号が付いており、チャートに入力されました。このチャートには、X、O、空白のマス目が様々な形で配置された三目並べのゲームグリッドが描かれており、 [ 5 ]ゲームが進行するにつれて起こり得るすべての順列に対応していました。[ 11 ]重複する配置(他の配置の回転や鏡像など)を取り除いた後、MENACEはチャートで304通りの順列を使用し、マッチ箱の数もその数だけ使用しました。[ 12 ]
それぞれのマッチ箱のトレイには、色とりどりのビーズがいくつか入っていました。[ 13 ]各色はゲームグリッド上のマス目の動きを表しており、グリッド上の位置が既に取られているマッチ箱には、その位置のビーズは入っていません。さらに、トレイの前面には「V」字型のカードが2枚追加されており、[ 10 ]「V」の先端はマッチ箱の前面を指しています。[ 11 ]ミチーと彼の人工知能チームは、MENACEのアルゴリズムを、このマシンに使用されている装置にちなんで「ボックス」と名付けました。 [ 7 ]最初の段階の「ボックス」は5つのフェーズで動作し、それぞれがゲームに関連するアルゴリズムのルールの定義と前例を設定しました。 [ 14 ]

MENACEは最初にOとしてプレイしました。なぜなら、すべてのマッチ箱は「X」プレイヤーにのみ関係する順列を表していたからです。[ 12 ] [ 17 ] MENACEが選択した動きを取得するために、対戦相手またはオペレーターは、現在のゲーム状態、またはその回転または鏡像に一致するマッチ箱を探しました。例えば、ゲーム開始時には、これは空のグリッドのマッチ箱です。トレイを取り出し、軽く振ってビーズを動かします。[ 5 ]次に、トレイの前面にある「V」字の頂点に転がったビーズが、MENACEが選択した動きです。[ 5 ]そのビーズの色は、プレイする位置として使用され、選択されたマッチ箱の配置と現在のグリッドの関係に基づいて必要な回転または反転が考慮された後、Oがそのマスに配置されます。その後、プレイヤーが動きを実行し、新しい状態が検索され、新しい動きが選択され、ゲームが終了するまでこれが繰り返されます。[ 12 ]
ゲームが終了すると、人間のプレイヤーはゲームの結果を観察しました。ゲームが進むにつれて、MENACEのターンに使われたマッチ箱はそれぞれトレイが半開きにされ、ビーズは脇に置かれました。これは、MENACEが選択した動きと、それらが属するゲーム状態を記録するためです。ミチーは、強化システムを「報酬」と「罰」で説明しました。ゲームが終了し、MENACEが勝った場合、勝利に対する「報酬」を受け取ります。取り除かれたビーズは、勝利した動きの順序を示していました。[ 17 ]これらのビーズは、わずかに開いているため簡単に識別できるそれぞれのトレイに戻され、同じ色のボーナスビーズが3つ追加されました。[ 11 ]このようにして、MENACEは将来のゲームでそれらの勝利の動きを繰り返す可能性が高くなり、勝利戦略が強化されます。負けた場合、取り除かれたビーズは戻されず、MENACEを「罰」し、将来その色のビーズがなくなった場合、負けを引き起こす動きを繰り返す可能性が低くなり、最終的にはできなくなることを意味します。[ 4 ] [ 8 ]ゲームが引き分けになった場合、各ボックスに1つのビーズが追加されました。[ 11 ]

ノットアンドクロスには、よく知られた最適戦略があります。[ 18 ]プレイヤーは、相手プレイヤーが列を作れないようにシンボルを配置すると同時に、自分自身も列を作らなければなりません。しかし、両方のプレイヤーがこの戦略を採用した場合、ゲームは必ず引き分けに終わります。[ 18 ]人間のプレイヤーが最適戦略に精通しており、MENACEがそれをすぐに学習できれば、ゲームは最終的に引き分けに終わるでしょう。コンピューターがランダムにプレイする相手と対戦する場合、コンピューターが勝つ可能性は急速に高まります。[ 4 ]
最適戦略を使うプレイヤーと対戦する場合、ドローの確率は100%にまで上昇する。1961年にドナルド・ミチーがMENACEと公式トーナメントを行った際[ 5 ]、彼は最適戦略を使い、20ゲーム後には彼とコンピュータはコンスタントにドローを始めた。ミチーのトーナメント[ 19 ]には以下の節目があった。ミチーは最初、コンスタントに「バリアント0」、つまり中央のマス目でオープニングを行った。15ゲーム目では、MENACEは角以外のオープニングを一切行わなくなった。20ゲーム目を少し過ぎた頃、ミチーはコンスタントに「バリアント1」、つまり右下のマス目でオープニングを行うようになった。60ゲーム目で再びバリアント0に戻った。80ゲーム目近くになると「バリアント2」、つまり上中に移った。110ゲーム目で「バリアント3」、つまり右上に移った。135ゲーム目で「バリアント4」、つまり右中に移った。 190 でバリアント 1 に戻り、210 でバリアント 0 に戻りました。
「2」のボックスのビーズの変化の傾向は次のとおりです。[ 19 ]
| 変異体 | 試合番号 | 「2」ボックスのビーズ変更 |
|---|---|---|
| バリアント0 | 0 | 0 |
| バリアント1 | 20 | -5 |
| バリアント0 | 60 | 5 |
| バリアント2 | 70 | 10 |
| バリアント3 | 110 | 20 |
| バリアント4 | 135 | 25 |
| バリアント1 | 190 | 100 |
| バリアント0 | 210 | 120 |

MENACEは、人間プレイヤーが採用する戦略に応じて、勝利の散布図に異なる傾向を示します。[ 5 ]人間プレイヤーのランダムな手番を使用すると、ほぼ完璧なプラスの傾向が得られます。最適な戦略を採用すると、わずかに緩やかな増加が見られます。[ 4 ]強化学習は勝利の完璧な基準を作り出すわけではありません。アルゴリズムは毎回ランダムで不確実な結論を導き出します。jラウンド目以降、ほぼ完璧なプレイの相関は次のようになります。
ここで、V iは結果(+1は勝利、0は引き分け、-1は敗北)、Dは減衰係数(過去の勝利と敗北の値の平均)である。以下、M nはゲームのn番目のラウンドの乗数である。 [ 5 ]
| 結果 | 強化 |
|---|---|
| 勝利した | |
| 描く | |
| 失った |
ドナルド・ミチーのMENACEは、コンピュータが失敗と成功から学習してタスクをうまくこなせることを証明した。[ 17 ]これは、機械学習の分野で適切に理論化される前の中核原理を用いていた。例えば、MENACEが各マッチ箱に同数の種類のビーズを入れて開始し、その後ビーズをランダムに選択する方法を組み合わせることで、現代の人工ニューラルネットワークの重み初期化に似た学習動作を生み出す。[ 20 ] 1968年、ドナルド・ミチーとRAチェンバースは、カートの上で棒のバランスをとる方法を学習する、BOXESベースの別のアルゴリズムGLEE(Game Learning Expectimaxing Engine)を作成した。[ 21 ]
MENACE が大反響を呼んだ後、ミチーはアメリカ海軍研究局に招かれ、スタンフォード大学で使用するIBMコンピュータ用の BOXES 実行プログラムの構築を委託された。[ 22 ]ミチーはD. マーティンの助けを借りて、ペガサス2 コンピュータ上で MENACE のシミュレーション プログラムを作成した。 [ 5 ]近年、元の物理的形式とコンピュータ プログラムの両方で、MENACE の再現が複数回行われている。[ 12 ]そのアルゴリズムは、後にクリストファー ワトキンのQ 学習アルゴリズムに収束した。[ 23 ]機能的なコンピュータとしてではないが、デモンストレーションの例では、MENACE はさまざまなニューラル ネットワーク クラスで教材として使用され、[ 24 ] [ 25 ] [ 26 ]ユニバーシティ カレッジ ロンドンの研究者マシュー スクロッグスの公開デモンストレーションも含まれている。[ 27 ] [ 28 ]スクロッグスが製作したMENACEのコピーは、2019年の王立研究所クリスマス講演会で紹介され、[ 29 ] [ 30 ] 、2023年のQI XLのエピソードでも紹介されました。[ 31 ]
MENACEは、フレッド・セイバーヘイゲンの1963年の短編小説『Without A Thought』とトーマス・J・ライアンの1977年の小説『The Adolescence of P-1』で言及されています。[ 32 ]ナオミ・アルダーマンは2023年の著書『The Future』の中で、MENACEの詳細な概要を記した架空の講義を掲載しています。