架空の遊び

ゲーム理論において、擬似プレイとは、プレイヤーが繰り返し戦略的相互作用を通して時間の経過とともにどのように学習するかを記述する学習規則である。擬似プレイでは、各プレイヤーは対戦相手が定常戦略（場合によっては混合戦略）を使用していると仮定し、対戦相手の過去の行動の歴史的経験的分布に対して最適に反応する。具体的には、各ラウンドにおいて、プレイヤーは対戦相手が過去のラウンドで使用した各戦略の経験的頻度を計算し、これらの頻度に対する最適な反応を選択する。

このアプローチは、プレイヤーが繰り返し観察することで戦略的環境を徐々に学習するという、限定合理性のシンプルなモデルを提供します。架空のプレイは、ゼロサムゲーム、ポテンシャルゲーム、優位戦略を持つゲームなど、いくつかの重要なゲームクラスにおいてナッシュ均衡に収束します。しかし、対戦相手が非定常戦略や適応戦略を採用している場合、この手法には顕著な限界があります。例えば、対戦相手が架空のプレイヤーの最近の動きに基づいてプレイを条件付けたり、最善の対応パターンの予測可能性を意図的に利用したりする場合、架空のプレイアプローチは収束に失敗したり、体系的に悪用されたりする可能性があります。

これは1951年に数学者ジョージ・W・ブラウンによって初めて導入されました。^[1]

歴史

ブラウンは、ナッシュ均衡プレイを説明するために、架空のプレイを初めて導入しました。彼は、プレイヤーが頭の中でゲームのプレイを「シミュレーション」し、そのシミュレーションに基づいて将来のプレイを更新すると想定しました。そのため、「架空のプレイ」という名前が付けられました。現在では、この名称は少し誤解を招くかもしれません。なぜなら、ゲームの各プレイは実際に発生するからです。プレイは厳密には架空のものではありません。

収束特性

架空のプレイにおいて、厳密なナッシュ均衡は吸収状態である。つまり、ある時点において全てのプレイヤーがナッシュ均衡をプレイする場合、その後の全てのラウンドでも同様にプレイする。(Fudenberg and Levine 1998, 命題 2.1) さらに、架空のプレイが任意の分布に収束する場合、それらの確率は基礎となるゲームのナッシュ均衡に対応する。(命題 2.2)

*一般化されたじゃんけん*
	あ	B	C
1つの	0, 0	2、1	1、2
b	1、2	0, 0	2、1
c	2、1	1、2	0, 0

したがって、興味深い疑問は、どのような状況下で架空のプレイが収束するのかということです。2人プレイの場合、以下の条件を満たすと収束します。

両プレイヤーとも戦略は有限であり、ゲームはゼロサムである（ロビンソン 1951）
このゲームは、厳格に支配された戦略の反復消去によって解ける（Nachbar 1990）
ゲームは潜在的なゲームである（Monderer and Shapley 1996-a,1996-b）
このゲームは一般的な報酬を持ち、2 × Nである（Berger 2005）

しかしながら、架空のプレイは必ずしも収束するわけではない。シャプレー（1964）は、ここに示したゲーム（じゃんけんの非ゼロ和バージョン）において、プレイヤーが最初に(a, B)を選択した場合、プレイは無限に循環することを証明した。

用語

バーガー（2007）は、「現代のゲーム理論家が『架空の遊び』と表現するものは、ジョージ・W・ブラウンが1951年の論文で定義した学習プロセスではない」と述べている。ブラウンの「原典版は微妙な点で異なっている…」。現代の用法ではプレイヤーが同時に信念を更新するのに対し、ブラウンはプレイヤーが交互に更新すると説明している。バーガーはブラウンの原典版を用いて、2人プレイの非退化順序ポテンシャルゲームにおける収束の単純かつ直感的な証明を提示している。

「架空の」という用語は、ゲーム理論において以前から別の意味を与えられていました。フォン・ノイマンとモルゲンシュテルン[1944]は、「架空のプレイヤー」を、n人プレイヤーのゲームに1つの戦略しか持たないプレイヤーを追加することで( n + 1)人プレイヤーのゼロサムゲームに変換するものと定義しました。

参考文献

^ ブラウン、ジョージ・W. (1951). 「架空プレイによるゲームの反復的解決」『生産と配分の活動分析』374–376ページ。

Berger, U. (2005)「2xNゲームにおける架空のプレイ」、経済理論ジャーナル120、139-154。
バーガー、U.（2007）「ブラウンのオリジナル架空劇」経済理論ジャーナル135：572-578
Brown, GW (1951)「架空プレイによるゲームの反復的解決」生産と配分の活動分析、TC Koopmans (編)、ニューヨーク: Wiley。
Fudenberg, D. および DK Levine (1998)ゲームにおける学習理論Cambridge: MIT Press。
Monderer, D.、およびShapley, LS (1996-a)「潜在的なゲーム」、ゲームと経済行動14、124-143。
Monderer, D.、およびShapley, LS（1996-b）「同一利益のゲームにおける架空のプレイ特性（Wayback Machineで2021-05-13にアーカイブ）」Journal of Economic Theory 68、258–265。
Nachbar, J. (1990)「ゲームにおける進化的選択ダイナミクス：収束と限界特性」、国際ゲーム理論ジャーナル19、59-89。
フォン・ノイマンとモルゲンシュテルン（1944）、「ゲームと経済行動の理論」、プリンストンとウッドストック：プリンストン大学出版局。
ロビンソン、J.（1951）「ゲームを解くための反復法」、Annals of Mathematics 54、296-301。
Shapley L. (1964)「2人ゲームに関するいくつかのトピック」ゲーム理論の進歩M. Dresher、LS Shapley、AW Tucker (編)、プリンストン: プリンストン大学出版局。

外部リンク

架空のプレイを用いたポーカーのゲーム理論的解決

[1] ブラウン、ジョージ・W. (1951). 「架空プレイによるゲームの反復的解決」『生産と配分の活動分析』374–376ページ。