超合理性

ゲーム理論におけるプレイヤーの特性

経済学ゲーム理論において、参加者が完全な合理性を持ちしたがって効用を最大化)、他のすべてのプレイヤーも超合理的であり、超合理的な個人は同じ問題に直面した際に他の超合理的な思考者と常に同じ戦略を思いつくと仮定する場合、参加者は超合理性(または再正規化合理性)を持つとみなされます。この定義を適用すると、囚人のジレンマにおいて超合理的な相手と対戦していると仮定する超合理的なプレイヤーは協力しますが、合理的に利己的なプレイヤーは裏切ります。

この意思決定ルールはゲーム理論における主流モデルではなくダグラス・ホフスタッターが論文、連載、そして著書『メタマジカル・テーマ』 [1]において、広く受け入れられているゲーム理論とは異なる、代替的な合理的意思決定の形態として提唱したものです。ホフスタッターは次のように定義しています。「超合理的思考者は、再帰的定義により、自分が超合理的思考者の集団に属しているという事実を、計算に組み入れている。」[1]

いわゆる「互恵的な人間」とは異なり、超合理的思考者は、社会全体の効用を最大化する均衡を常に取るわけではないので、慈善家とは言えません。

囚人のジレンマ

超合理性の概念とは、論理的に考える二人が同じ問題を分析した場合、同じ正解を導き出すというものです。例えば、二人とも数学が得意で、同じ複雑な問題を解くように指示された場合、二人は同じ正解を導き出します。数学では、二つの答えが同じになることが分かっていても、問題の価値は変わりませんが、ゲーム理論では、答えが同じになることが分かっていると、答え自体が変わる可能性があります。

囚人のジレンマ、通常、犯罪者への懲役刑という形で表現されますが、賞金を賭けたゲームでも同様にうまく表現できます。2人のプレイヤーはそれぞれ、協力(C)するか裏切る(D)かの選択肢を与えられます。プレイヤーは、相手が何をするかを知らずに選択します。協力した場合、それぞれ100ドルを獲得します。裏切った場合は、それぞれ1ドルを獲得します。一方が協力し、もう一方が裏切った場合、裏切ったプレイヤーは150ドルを獲得し、協力したプレイヤーは何も獲得しません。

4 つの結果と各プレイヤーへの報酬は以下のとおりです。

プレイヤーBが協力する プレイヤーBが裏切る
プレイヤーAが協力する 両者とも100ドルを得る プレイヤーA: $0
プレイヤーB: $150
プレイヤーAが裏切る プレイヤーA:150ドル
プレイヤーB:0ドル
両者とも1ドルを得る

プレイヤーが推論するための有効な方法の 1 つは次のとおりです。

  1. 他のプレイヤーが裏切ったと仮定すると、協力すれば何も得られず、裏切ったら 1 ドル得られます。
  2. 他のプレイヤーが協力すると仮定すると、協力した場合は 100 ドル、裏切った場合は 150 ドルを獲得します。
  3. つまり、他のプレイヤーが何をしても、たとえ 1 ドルでも、裏切ることによって私の報酬は増加します。

結論として、合理的な行動は裏切ることである。この種の推論はゲーム理論的合理性を定義し、このゲームをプレイする2人のゲーム理論的に合理的なプレイヤーは、どちらも裏切り、それぞれ1ドルを受け取る。

超合理性は、別の推論手法です。まず、対称的な問題に対する答えは、すべての超合理プレイヤーにとって同じであると仮定します。したがって、戦略を決定する前に、この同一性が考慮されます。戦略は、全員が同じ戦略を用いると仮定し、各プレイヤーの利得を最大化することで決定されます。超合理プレイヤーは、他の超合理プレイヤーも同じ行動を取ることを知っているため(それが何であれ)、2人の超合理プレイヤーには2つの選択肢しかありません。超合理プレイヤーの答えの価値に応じて、両者が協力するか、両者が裏切るかです。したがって、この答えは彼らの利得を最大化するため、2人の超合理プレイヤーは両方とも協力することになります。このゲームをプレイしている2人の超合理プレイヤーは、それぞれ100ドルを手にします。

ゲーム理論的に合理的なプレイヤーと対戦する超合理的なプレイヤーは裏切るでしょう。なぜなら、その戦略は超合理的なプレイヤーが同意することだけを前提としているからです。

標準的なゲーム理論は合理性に関する共通認識を前提としているが、その方法は異なる。ゲーム理論的分析では、対称ゲームにおける答えは最終的には全員にとって同じであると仮定しながらも、各プレイヤーが他のプレイヤーとは独立して戦略を変更できるようにすることで、利得を最大化する。これはゲーム理論的ナッシュ均衡の定義であり、安定戦略とは、どのプレイヤーも一方的に進路を変更することで利得を向上させることができない戦略と定義される。対称ゲームにおける超合理均衡とは、最大化ステップの前に全プレイヤーの戦略が同一となる均衡である。(超合理性の概念を非対称ゲームに拡張することについては合意が得られていないが、詳細については「非対称ゲーム」を参照。)

超合理性は、コミュニケーションがなくても、各プレイヤーが協力するという決定が他のプレイヤーの協力につながると想定する、一種の魔法的思考を意味すると主張する者もいる誰が?。ホフスタッターは、プレイヤーの目的が何かを理解することである場合、「選択」の概念は適用されず、決定が他のプレイヤーの協力を引き起こすのではなく、コミュニケーションや因果関係とは無関係に、同じ論理が同じ答えを導くと指摘している。この議論は、人間が超合理的に行動することが合理的かどうかに関するものであり、超合理性の意味に関するものではない。そして、ゲーム理論で説明される「合理的」な行動をとることが合理的かどうかに関する議論と似ている(ゲーム理論では、人間は「もし自分が彼らだったらどうするだろうか」と自問し、後方帰納法被支配戦略の反復消去法を適用することで、他のプレイヤーが何をするか、あるいは既に何をしたかを推測できる)。

確率的戦略

簡潔にするために、これまでの超合理性の説明では、混合戦略、つまりコインを投げることが最善の選択である可能性、あるいはより一般的には、ある確率で異なる結果を選択する可能性は無視しました。囚人のジレンマでは、混合戦略が認められる場合でも、確率1で協力することが超合理的です。なぜなら、一方のプレイヤーが協力し、もう一方のプレイヤーが裏切った場合の平均利得は、両者が協力した場合と同じであり、裏切ると両者が裏切るリスクが高まり、期待利得が減少するからです。しかし、場合によっては、超合理的戦略は混合戦略となります

たとえば、 のペイオフが次のとおりだとします。

CC – 100ドル/100ドル
CD – 0ドル/1,000,000ドル
DC – 1,000,000ドル/0ドル
DD – 1ドル/1ドル

裏切りには莫大な報酬があるため、超合理的戦略では499,900/999,899、つまり49.995%強の確率で裏切ります。報酬が無限大に増加しても、確率はさらに1/2に近づくだけで、より単純な1/2戦略を採用した場合の損失(既に最小限ですが)は0に近づきます。もう少し極端な例を挙げると、協力者1人に対する報酬が400ドル、裏切り者1人に対する報酬が0ドルの場合、超合理的混合戦略では100/299、つまり約1/3の確率で裏切ります。

同様の状況でプレイヤーが複数いる場合、ランダム化装置の使用が不可欠となる場合があります。ホフスタッターが論じた例として、プラトニアのジレンマが挙げられます。ある風変わりな兆万長者が20人に連絡を取り、翌日正午までに電報(費用はかからないものと仮定)を送ってくれれば、その人は10億ドルを受け取ると伝えます。もし20人が電報を複数受け取った場合、あるいは全く受け取らなかった場合は、誰も金銭を受け取れず、プレイヤー間のコミュニケーションは禁止されます。この状況で、超合理的な行動(20人全員が超合理的であることが分かっている場合)は、確率p=1/20で電報を送信することです。つまり、各受信者は基本的に20面サイコロを振り、「1」が出た場合のみ電報を送信するということです。これにより、電報が1つだけ受信される確率が最大化されます。

ただし、これは従来のゲーム理論的分析における解決策ではないことに注意してください。ゲーム理論的に合理的な20人のプレイヤーはそれぞれ電報を送信しますが、その結果何も受け取りません。これは、電報を送信することが支配戦略であるためです。つまり、個々のプレイヤーが電報を送信すれば金銭を受け取るチャンスがありますが、電報を送信しなければ何も受け取ることができません。(もしすべての電報が確実に届くとしたら、彼らは1通だけ送信し、誰も金銭を受け取ることを期待しないでしょう。)

非対称ゲーム

超合理性の概念を非対称ゲームに拡張する学術研究はまだ始まったばかりです

ギスラン・フルニー[2]が開発したそのような研究の1つは、一連のエージェントによって実行されると、彼が「完全に透明な均衡」と呼ぶものにつながる意思決定アルゴリズムを提案しています。

一般化された均衡は、完全に透明な均衡(PTE)と呼ばれます。[...] 常に存在するわけではありませんが、存在する場合は常に一意であり、常にパレート最適であり、対称ゲームにおけるホフスタッターの均衡と一致します。

このアルゴリズムは、非公式には次の手順のシーケンスとして理解できます。

  1. プレイヤーにどのような選択肢があり得るかを考慮し、各プレイヤーがマキシミニ決定規則を実行した場合にどのような結果が達成されるかを判断します。この結果をmとします。
  2. パレート支配mにならない結果は考慮から除外します
  3. 結果が 1 つだけ残るか、または複数の結果が排除されるまで、手順 1 と 2 を繰り返します。

この排除プロセスを通過した結果が PTE になります。

状況によっては、一回限りの囚人のジレンマにおいて協力すべきか否かという問題は、ニューカムの問題を契機として意思決定理論の文献にも登場している。因果的意思決定理論は超合理性は非合理的であると示唆する一方、証拠的意思決定理論は超合理性に類似した推論を支持し、同様の相手との囚人のジレンマにおいて協力することを推奨している。[3] [4]

プログラム均衡は超合理性の機械論的モデルとして提案されている。[5] [6] [7]

参照

参考文献

  1. ^ ab ホフスタッター、ダグラス(1983年6月)「超合理的思考者のジレンマ、魅力的な宝くじにつながる」サイエンティフィック・アメリカン248 ( 6)– 再録:ホフスタッター、ダグラス(1985年)『メタマジカル・テーマ』ベーシックブックス、pp.  737– 755、ISBN 0-465-04566-9
  2. ^ Fourny, Ghislain (2020年6月). 「正規形における完全な予測:非対称ゲームへの超合理的思考の拡張」. Journal of Mathematical Psychology . 96 102332. arXiv : 1712.05723 . doi :10.1016/j.jmp.2020.102332. hdl :20.500.11850/221777
  3. ^ ルイス、デイヴィッド (1979). 「囚人のジレンマはニューカム問題である」.哲学と公共問題. 8 (3): 235– 240. doi :10.1093/0195036468.003.0011. ISBN 0-19-503646-8 JSTOR  2265034
  4. ^ Brams, Steven J. (1975). 「ニューカムの問題と囚人のジレンマ」. The Journal of Conflict Resolution . 19 (4): 596–612 . doi :10.1177/002200277501900402
  5. ^ Howard, JV (1988年5月). 「囚人のジレンマにおける協力」.理論と意思決定. 24 (3): 203– 213. doi :10.1007/BF00148954.
  6. ^ Barasz, M.; Christiano, P.; Fallenstein, B.; Herreshoff, M.; LaVictoire, P.; Yudkowsky, E. (2014). 「囚人のジレンマにおけるロバストな協力:証明可能性論理によるプログラム均衡」arXiv : 1401.5577 [cs.GT].
  7. ^ Oesterheld, Caspar; Treutlein, Johannes; Grosse, Roger; Conitzer, Vincent; Foerster, Jakob (2023). 「類似性に基づく協調平衡」. Proceedings of the Neural Information Processing Systems (NeurIPS) . arXiv : 2211.14468 .
「https://en.wikipedia.org/w/index.php?title=Superrationality&oldid=1310049051」より取得