ベイズゲーム

Game theory concept

ゲーム理論においてベイジアンゲームとは、プレイヤーが不完全情報しか持たないことを前提とする戦略的意思決定モデルである。プレイヤーはゲームに関連する私的情報を保持している可能性があり、その場合、利得は共有情報ではない。[1]ベイジアンゲームは、ベイジアン確率の側面を用いてプレイヤーの相互作用の結果をモデル化する。ベイジアンゲームは、ゲーム理論において初めて 不完全情報を持つゲームの解の特定を可能にした点で注目に値する。

ハンガリーの経済学者ジョン・C・ハルサニは、1967年と1968年に発表した3つの論文でベイジアンゲームの概念を提唱しました。[2] [3] [4]彼はこれらの論文とゲーム理論へのその他の貢献により、1994年にノーベル経済学賞を受賞しました。大まかに言えば、ハルサニはベイジアンゲームを次のように定義しました。プレイヤーはゲーム開始時に、生まれつき一連の特性を割り当てられます。これらの特性に確率分布をマッピングし、ベイジアン確率を用いてゲームの結果を計算することで、技術的な理由から、ベイジアンゲーム以外の文脈における同様のゲームよりもはるかに容易に解を計算できるゲームが生まれます。

不完全情報を含む正規形ゲーム

要素

ベイズゲームは次のように定義され、以下の要素から構成される。[5] ( N , A , T , u , p ) {\displaystyle (N\!,A,T,u,p)}

プレイヤーのセット、N
ゲーム内のプレイヤーの集合
アクションセット、a i
プレイヤーiが実行できるアクションの集合。アクションプロファイルa = ( a 1 , . . . , a N ) は、各プレイヤーに1つずつ割り当てられるアクションのリストである。
タイプセット、t i
プレイヤーのタイプの集合i。「タイプ」はプレイヤーが持つ可能性のある個人情報を表します。タイププロファイルt = ( t 1 , . . . , t N ) は、プレイヤーごとに1つずつ、タイプのリストです。
ペイオフ関数、u
プレイヤーのタイプと行動プロファイルに基づいて、プレイヤーに利得を割り当てる。利得関数u = ( u 1 , . . . , u N ) は、プレイヤーiの効用を表す。
プライア、p
すべての可能なタイプ プロファイルの確率分布。ここで、p ( t ) = p ( t 1、 . . . 、t N ) は、プレーヤー 1 がタイプt 1を持ち、プレーヤーN がタイプt Nを持つ確率です

純粋な戦略

戦略ゲームにおいて、純粋戦略とは、プレイヤーが意思決定をしなければならない各ポイントにおけるプレイヤーの行動の選択である。[6]

3つの段階

ベイジアン ゲームには 3 つの段階があり、各段階ではゲーム内の型に関するプレイヤーの知識が説明されます。

  1. 事前段階のゲーム。プレイヤーは自分のタイプも他のプレイヤーのタイプも知りません。プレイヤーは、すべての可能性のあるタイプの事前分布に基づく期待値として、報酬を認識します。
  2. 中間段階のゲーム。プレイヤーは自分のタイプは知っているものの、他のプレイヤーの確率分布しか知らない。利得を考慮する際、プレイヤーは他のプレイヤーのタイプの期待値を検討する。
  3. 事後段階ゲーム。プレイヤーは自分のタイプと他のプレイヤーのタイプを知っている。報酬はプレイヤーに知られている。[7]

非ベイジアンゲームに対する改善

ベイジアンゲームには、ハルサニ[8]によって明確に定義された2つの重要かつ斬新な側面があります。1つ目は、ベイジアンゲームは完全情報ゲームと同様に考え、構造化されるべきであるということです。しかし、ゲームに確率を付与することで、最終的なゲームは不完全情報ゲームとして機能します。したがって、プレイヤーは本質的に不完全情報を持つものとしてモデル化でき、ゲームの確率空間は依然として全確率の法則に従います。ベイジアンゲームは、繰り返しゲームにおける戦略的思考に典型的な無限の逐次計算を必要としないという点でも有用です。無限の逐次計算は、プレイヤーが「お互いの考えを理解しようと」しようとするところで発生します。例えば、プレイヤーは「プレイヤーBに何らかの行動を期待するなら、プレイヤーBは私がその行動を期待することを予測するだろう。だから私はその予測を予測すべきだ」と無限に繰り返し、質問をして判断するかもしれません。ベイジアンゲームでは、異なる結果に異なる確率の重みを同時に割り当てることで、これらの結果を1手で計算することができます。この効果により、ベイジアン ゲームでは、非ベイジアン設定では計算が不可能な多数のゲームをモデル化できるようになります

ベイズナッシュ均衡

ベイジアンナッシュ均衡(BNE) は、ベイジアン フレームワークに関連付けられた事前正規形ゲームから導出されるベイジアン ゲームのナッシュ均衡です。

従来の(非ベイズ)ゲームにおいて、各プレイヤーの戦略が他のプレイヤーの戦略に対する最善の対応である場合、戦略プロファイルはナッシュ均衡となります。この状況では、他のプレイヤーが選択した戦略を与えられた場合、どのプレイヤーもより高い利得を得るために一方的に戦略を変更することはできません。

ベイズゲームにおいて、ナッシュ均衡の概念は自然状態に関する不確実性も包含する。各プレイヤーは、ベイズの定理を用いて形成される自然状態に関する信念に基づいて、期待利得を最大化する。戦略プロファイルは、以下の条件が満たされる場合、すべてのプレイヤーについて、戦略がプレイヤーの期待利得を最大化する場合、 ベイズナッシュ均衡となる。 σ = ( σ 1 , σ 2 , , σ N ) {\displaystyle \sigma =(\sigma _{1},\sigma _{2},\dots ,\sigma _{N})} i {\displaystyle i} σ i {\displaystyle \sigma _{i}} i {\displaystyle i}

  • 自然の状態に関する彼らの信念(彼らのタイプに基づく)、
  • 他のプレイヤーが行った戦略。[5]

数学的には: σ i  maximizes  E [ u i ( σ i , σ i ) type of player  i ] . {\displaystyle \sigma _{i}{\text{ maximizes }}\mathbb {E} [u_{i}(\sigma _{i},\sigma _{-i})\mid {\text{type of player }}i].}

有限ベイジアンゲーム(アクションとタイプ空間が有限)の場合、BNE は 2 つの同等の方法で表現できます。

  1. エージェント型ゲーム:プレイヤーの数は から に拡張され各タイプのプレイヤーはそれぞれ別の「プレイヤー」として扱われます。これは『ゲーム理論』の定理9.51に詳述されています。[9] | N | {\displaystyle |N|} i = 1 | N | | Θ i | {\textstyle \sum _{i=1}^{|N|}|\Theta _{i}|}
  2. 誘導正規形ゲーム:プレイヤー数は のままですが、各プレイヤーの行動空間はからに拡張されます。これは、戦略があらゆるタイプのプレイヤーに対して行動を指定するようになったことを意味します。この表現については、『マルチエージェントシステム』の6.3.3節で説明されています[10] | N | {\displaystyle |N|} i {\displaystyle i} | A i | {\displaystyle |A_{i}|} | A i | | Θ i | {\displaystyle |A_{i}|^{|\Theta _{i}|}}

どちらの場合も、これらの表現を用いてゲームのナッシュ均衡を計算し、その結果からBNEを復元することができる。ゼロ和目的を持つ2人ベイズゲームにおいて、BNEを効率的に計算するための線形計画法を定式化することができる。[11]

不完全な情報による拡張形式のゲーム

拡張形式ゲームの要素

完全情報または不完全情報を用いた拡張形式ゲームには、以下の要素があります。[12]

  1. プレイヤーのセット
  2. 決定ノードのセット
  3. 各決定ノードにプレイヤーを割り当てるプレイヤー関数
  4. 各プレイヤーのそれぞれの決定ノードにおける一連のアクション
  5. 端末ノードのセット
  6. 各プレイヤーの報酬関数

自然と情報セット

塗りつぶされていない円は通常、自然のノードを表します。その戦略は常に特定されており、完全に混合されています。自然は一般的に木の根元にありますが、他の点に移動することもあります。

プレイヤーiの情報セットとは、プレイヤーiが区別できない決定ノードのサブセットです。プレイヤーiが情報セット内のいずれかの決定ノードにいる場合、情報セット内のどのノードにいるのかはわかりません。

2つの決定ノードが同じ情報セットに存在するためには、[13]

  1. 同じプレイヤーに属していること。
  2. 同じ一連のアクションを実行する

情報セットは点線で示され、これは現在最も一般的な表記法です。

信念の役割

ベイジアン ゲームでは、ゲームに関するプレイヤーの信念は、さまざまな種類の確率分布によって表されます。

プレイヤーが個人情報を持っていない場合、タイプ間の確率分布は共通事前分布と呼ばれます。[1]

ベイズの定理

展開形ゲームの評価はペアb, μ

  1. 行動戦略プロファイル
  2. 信念体系

評価b, μ ⟩がベイズの定理を満たすのは、[14] μ ( x | h i ) = Pr [ b iが与えられたらxに到達する] / Σ Pr [ b iが与えられたら x ′に到達する]であり、 b iに従ってh iが厳密に正の確率で到達するときはいつでもこの条件を満たす場合である。

完全なベイズ均衡

拡張形式ゲームにおける完全なベイジアン均衡とは、以下の2つの条件を満たす戦略と信念の組み合わせである。[15]

  1. ベイズの一貫性: 信念は検討中の戦略と一致している。
  2. 順次合理性: プレイヤーは自分の信念に基づいて最適な選択を行います。

ベイズ的ナッシュ均衡は、プレイヤーが同時ではなく逐次的に行動する動的ゲームにおいて、あり得ない均衡をもたらす可能性がある。完全情報ゲームと同様に、均衡経路から外れた信頼できない戦略によって、このような均衡が生じる可能性がある。不完全情報ゲームにおいても、信頼できない信念は存在し得る。

これらの問題に対処するため、部分ゲーム完全均衡によれば、完全ベイズ均衡は、いかなる情報セットから始めても、その後のプレイが最適であることを要求する。また、正の確率で発生するすべてのプレイパスにおいて、ベイズの定理に従って信念が整合的に更新されることも要求する。

確率的ベイズゲーム

確率的ベイジアンゲーム[16] は、ベイジアンゲームと確率的ゲームの定義を組み合わせて、環境状態(例えば、物理世界の状態)を、状態間の確率的遷移と各状態における異なるプレイヤーのタイプに関する不確実性とともに表現する。結果として得られるモデルは、ベイジアンナッシュ均衡とベルマン最適性方程式の再帰的組み合わせによって解かれる。確率的ベイジアンゲームは、防衛・安全保障計画、[17]、発電所のサイバーセキュリティ、[18] 、自動運転、[19] 、モバイルエッジコンピューティング、[20]、動的システムの自己安定化、[21] 、クラウドソーシングIoTにおける不正行為処理など、多様な問題の解決に利用されてきた[22]

集団的行為よりも不完全な情報

ベイジアンゲームとベイジアン均衡の定義は、集団的エージェンシーを扱うために拡張されてきた。一つのアプローチは、個々のプレイヤーを孤立した推論者として扱いつつ、ある程度の確率で集団の観点から推論できるようにすることである。[23]もう一つのアプローチは、集団的エージェント内のプレイヤーはエージェントの存在を知っているが、他のプレイヤーはそれを知らないが、ある程度の確率で疑っていると仮定するものである。[24]例えば、アリスとボブは、自然の状態に応じて、時には個人として最適化し、時にはチームとして共謀するかもしれないが、他のプレイヤーはどちらが当てはまるか知らないかもしれない。

保安官のジレンマ

保安官は武装した容疑者と対峙する。両者は同時に、相手を撃つべきかどうか決断しなければならない。

容疑者は「犯罪者」か「一般人」のいずれかのタイプに分類されます。保安官のタイプは1つだけです。容疑者は自身のタイプと保安官のタイプを知っていますが、保安官は容疑者のタイプを知りません。したがって、不完全情報(容疑者は個人情報を持っているため)が存在し、ベイズゲームとなります。容疑者が犯罪者である確率はp、一般人である確率は1-pです。両方のプレイヤーはこの確率を認識しています(共通の事前仮定であり、不完全情報を伴う完全情報ゲームに変換できます)。

保安官は、容疑者が発砲した場合は自衛のために発砲し、そうでない場合は(たとえ容疑者が犯罪者であっても)発砲しないという選択をする。容疑者は、自分が犯罪者であれば保安官が発砲しなくても発砲するが、自分が民間人であれば保安官が発砲しても発砲しないという選択をする。したがって、この正規形ゲームにおける両プレイヤーの利得行列は、容疑者のタイプに依存する。このゲームは ( N , A , T , p , u ) {\displaystyle (N,A,T,p,u)} で定義され、ここで:

  • N = {容疑者、保安官}
  • 容疑= {撃つべき、撃たない}、保安= {撃つべき、撃たない}
  • T容疑者= {犯罪者、民間人}、T保安官= {*}
  • p犯罪者= pp民間人= (1 − p )
  • ペイオフuは次のように与えられると仮定します。
タイプ = 「犯罪者」 保安官の行動
シュート ない
容疑者の行動 シュート 0, 0 2, −2
ない −2、−1 −1、−1
タイプ = "民間人" 保安官の行動
シュート ない
容疑者の行動 シュート −3、−1 −1、−2
ない −2、−1 0, 0

もし両プレイヤーが合理的であり、両プレイヤーが合理的であることを知っており、どのプレイヤーも知っていることはすべて他のプレイヤーにも知られているとわかっている場合(つまり、プレイヤー1はプレイヤー2がプレイヤー1が合理的であることを知っていることを知っており、プレイヤー2もこれを知っているなど、無限に続く共通知識)、ゲームにおけるプレイは完全なベイジアン均衡に従って次のようになる:[25] [26]

タイプが「犯罪者」の場合、容疑者にとっての優位戦略は発砲することであり、タイプが「民間人」の場合、容疑者にとっての優位戦略は発砲しないことです。したがって、代替の厳格に支配された戦略は削除できます。これを考慮すると、保安官が発砲した場合、確率pで報酬0、確率 1 p {\displaystyle 1-p} で報酬-1 、つまり期待報酬⁠が得られます。保安官が発砲しない場合、確率 p 1 {\displaystyle p-1} pで報酬-2 、確率 1 p {\displaystyle 1-p} で報酬0 、つまり期待報酬 2 p {\displaystyle -2p} が得られます。したがって、保安官は p 1 > 2 p {\displaystyle p-1>-2p} の場合、つまり p > 1 / 3 {\displaystyle p>1/3} のときに常に発砲します。

レモンの市場

「レモン市場」は逆選択として知られる概念に関連しています

設定

中古車があります。プレイヤー1は、この車に興味を持っている潜在的な購入者です。プレイヤー2は車を所有しており、その価値(状態など)を知っています。プレイヤー1は車を所有しておらず、所有者(プレイヤー2)にとっての車の価値は0から100の間で均一に分布していると考えています(つまり、[0, 100]の等しい長さの2つの値区間は、それぞれ等確率で出現します)。

プレイヤー1は0から100(両端を含む)の範囲でpを入札できます。プレイヤー2は入札を受け入れるか拒否するかを選択できます。得られる配当は以下のとおりです。

  • プレイヤー1の報酬: 入札受諾は 3 2 v p {\displaystyle {\frac {3}{2}}v-p} 、入札拒否は 0 です
  • プレイヤー2の利益: 入札受諾はp、入札拒否はv

サイドポイント:カットオフ戦略

プレイヤー 2 の戦略: 特定のカットオフP ∗ を超える入札はすべて受け入れ、P を下回る入札は拒否して入札する。これはカットオフ戦略と呼ばれ、P はカットオフと呼ばれます。

  • 取引されるのは「レモン」(状態の悪い中古車、具体的には価値が最大でpに等しいもの)のみである。
  • プレイヤー1はゼロを入札することでゼロの報酬を保証できる。したがって均衡状態ではp = 0となる。
  • 「レモン」(状態の悪い中古車)だけが取引されるため、市場は崩壊する
  • 貿易が経済的に効率的であっても貿易は不可能である[27]

独占市場への参入

大企業が独占している市場に新規企業(プレイヤー1)が参入しようとすると、2種類の独占企業(プレイヤー2)に遭遇します。タイプ1は参入を阻止され、タイプ2は参入が許可されます。プレイヤー1はプレイヤー2に関する完全な情報を得ることはできませんが、先行企業が参入を阻止されたかどうかから、タイプ1とタイプ2の出現確率を推測できる場合があります。これはベイズゲームです。このような判断を行う理由は、プレイヤー2にはブロッキングコストがあり、プレイヤー1の参入を阻止するために大幅な値下げが必要になる可能性があるためです。そのため、プレイヤー2は参入によって奪う利益がブロッキングコストを上回る場合、プレイヤー1をブロックします。

参照

参考文献

  1. ^ ザミール、シュムエル (2009). 「ベイジアンゲーム:不完全情報ゲーム」(PDF) .複雑性とシステム科学百科事典. p. 426. doi :10.1007/978-0-387-30440-3_29. ISBN 978-0-387-75888-6. S2CID  14218591。
  2. ^ Harsanyi, John C., 1967/1968. 「ベイジアンプレイヤーによる不完全情報ゲーム、I-III」 Management Science 14 (3): 159-183 (パートI), 14 (5): 320-334 (パートII), 14 (7): 486-502 (パートIII).
  3. ^ Harsanyi, John C. (1968). 「ベイジアンプレイヤーによる不完全情報ゲーム I-III. パートII. ベイジアン均衡点」. Management Science . 14 (5): 320– 334. doi :10.1287/mnsc.14.5.320. ISSN  0025-1909. JSTOR  2628673.
  4. ^ Harsanyi, John C. (1968). 「ベイジアンプレイヤーによる不完全情報ゲーム I-III. パートIII. ゲームの基本確率分布」. Management Science . 14 (7): 486– 502. doi :10.1287/mnsc.14.7.486. ISSN  0025-1909. JSTOR  2628894.
  5. ^ ab Kajii, A.; Morris, S. (1997). 「不完全情報に対する均衡の堅牢性」. Econometrica . 65 (6): 1283– 1309. doi :10.2307/2171737. JSTOR  2171737.
  6. ^ グリューネ=ヤノフ、ティル;レーティネン、アキ(2012年)「ゲーム理論の哲学」『経済哲学』 532頁。
  7. ^ コニオルチク、マーティアシュ;アンドラーシュ州ボドル。ピンテール、ミクロス(2020年6月29日)。 「非ローカルリソースを使用した古典的なベイジアンゲームにおける事前均衡と事後均衡」。物理的レビュー A . 1 (6): 2–3 . arXiv : 2005.12727ビブコード:2020PhRvA.101f2115K。土井:10.1103/PhysRevA.101.062115。S2CID  218889282。
  8. ^ Harsanyi, John C. (2004). 「ベイジアンプレイヤーによる不完全情報ゲーム I-III: パートI. 基本モデル」. Management Science . 50 (12): 1804– 1817. doi :10.1287/mnsc.1040.0270. ISSN  0025-1909. JSTOR  30046151.
  9. ^ マシュラー, マイケル; ソラン, エイロン; ザミール, シュムエル (2013). ゲーム理論. ケンブリッジ: ケンブリッジ大学出版局. doi :10.1017/cbo9780511794216. ISBN 978-0-511-79421-6
  10. ^ ショーハム、ヨアブ、レイトンブラウン、ケビン (2008).マルチエージェントシステム. ケンブリッジ: ケンブリッジ大学出版局. doi :10.1017/cbo9780511811654. ISBN 978-0-511-81165-4
  11. ^ Ponssard, J.-P.; Sorin, S. (1980年6月). 「不完全情報を用いた有限ゼロ和ゲームのLP定式化」. International Journal of Game Theory . 9 (2): 99– 105. doi :10.1007/bf01769767. ISSN  0020-7276. S2CID  120632621.
  12. ^ Narahari, Y (2012年7月). 「拡張形式ゲーム」(PDF) .コンピュータサイエンス・オートメーション学科: 1.
  13. ^ 「戦略型ゲーム」、ゲーム理論、ケンブリッジ大学出版局、pp.  75– 143、2013年3月21日、doi :10.1017/cbo9780511794216.005、ISBN 978-0-511-79421-6
  14. ^ 「ベイズの定理:ベイズ分析入門」. Choice Reviews Online . 51 (6): 51–3301–51-3301. 2014年1月21日. doi :10.5860/choice.51-3301 (2025年7月1日非アクティブ). ISSN  0009-4978.{{cite journal}}: CS1 maint: DOI inactive as of July 2025 (link)
  15. ^ Peters, Hans (2015).ゲーム理論. Springer Texts in Business and Economics. ベルリン: Springer. p. 60. doi :10.1007/978-3-662-46950-7. ISBN 978-3-662-46949-1
  16. ^ アルブレヒト, ステファノ; クランドール, ジェイコブ; ラマムールシー, スブラマニアン (2016). 「仮説行動における信念と真実」.人工知能. 235 : 63–94 . arXiv : 1507.07688 . doi :10.1016/j.artint.2016.02.004. S2CID  2599762.
  17. ^ Caballero, William N.; Banks, David; Wu, Keru (2022-08-08). 「資源の不確実性と多期間コミットメント下における防衛・安全保障計画」 . Naval Research Logistics . 69 (7): 1009– 1026. doi :10.1002/nav.22071. ISSN  0894-069X. S2CID  251461541.
  18. ^ Maccarone, Lee Tylor (2021).原子力発電所のサイバーセキュリティのための確率的ベイズゲーム. ピッツバーグ大学博士論文.
  19. ^ Bernhard, Julian; Pollok, Stefan; Knoll, Alois (2019). 「固有の不確実性への対処:分布強化学習を用いた自動運転のためのリスクに配慮した行動生成」. 2019 IEEE Intelligent Vehicles Symposium (IV) . パリ, フランス: IEEE. pp.  2148– 2155. arXiv : 2102.03119 . doi :10.1109/IVS.2019.8813791. ISBN 978-1-7281-0560-4. S2CID  201811314。
  20. ^ Asheralieva, Alia; Niyato, Dusit (2021). 「ラグランジュ符号化モバイルエッジコンピューティングによる高速かつ安全な計算オフロード」. IEEE Transactions on Vehicular Technology . 70 (5): 4924– 4942. Bibcode :2021ITVT...70.4924A. ​​doi :10.1109/TVT.2021.3070723. ISSN  0018-9545. S2CID  234331661.
  21. ^ Ramtin, Amir Reza; Towsley, Don (2021). 「利己的エージェントによる自己安定化へのゲーム理論的アプローチ」arXiv : 2108.07362 [cs.DC].
  22. ^ Su, Runbo; Sfar, Arbia Riahi; Natalizio, Enrico; Moyal, Pascal; Song, Ye-Qiong (2023-09-11). 「クラウドソーシングIoTにおける不正行為に対処するゲーム理論モデル」. 2023 第20回IEEE国際センシング・コミュニケーション・ネットワーキング会議 (SECON) (PDF) . IEEE. pp.  195– 203. doi :10.1109/SECON58729.2023.10287527. ISBN 979-8-3503-0052-9
  23. ^ Bacharach, M. (1999). 「インタラクティブ・チーム推論:協力理論への貢献」. Research in Economics . 53 (2): 117–47 . doi :10.1006/reec.1999.0188.
  24. ^ Newton, J. (2019). 「エージェンシー均衡」. Games . 10 (1): 14. doi : 10.3390/g10010014 . hdl : 10419/219237 .
  25. ^ “Coursera”. Coursera . 2016年8月10日時点のオリジナルよりアーカイブ2016年6月16日閲覧。
  26. ^ Hu, Yuhuang; Loo, Chu Kiong (2014-03-17). 「インテリジェントエージェントのための一般化された量子に着想を得た意思決定モデル」. The Scientific World Journal . 2014 240983. doi : 10.1155/2014/240983 . ISSN 1537-744X  . PMC 3977121. PMID  24778580. 
  27. ^ ジョージ・A・アカロフ(1970年8月)「『レモン』市場:品質の不確実性と市場メカニズム」季刊経済学84 (3): 488-500 . doi :10.2307/1879431. JSTOR  1879431.

さらに読む

  • ギボンズ、ロバート(1992)『応用経済学者のためのゲーム理論』プリンストン大学出版局、pp.  144– 52. ISBN 1-4008-3588-7
  • レビン、ジョナサン (2002). 「不完全情報ゲーム」(PDF) . 2016年8月25日閲覧.
Retrieved from "https://en.wikipedia.org/w/index.php?title=Bayesian_game&oldid=1315843997"