仕返し

「Tit for tat」は「同等の報復」を意味する英語の諺です。tip （チップ）をtap（タップ）に置き換えると「blow for blow（打撃には打撃）」となり、^[¹^] 1558年に初めて記録されました。^[²^]

これはゲーム理論においても非常に効果的な戦略です。この戦略を用いるエージェントは、まず協力し、その後、相手の前回の行動を模倣します。相手が前回協力的であった場合、エージェントは協力的になります。そうでない場合、エージェントは協力的になりません。これは生物学における互恵的利他主義に似ています。

ゲーム理論

しっぺ返しは、反復囚人のジレンマ戦略として非常に効果的に用いられてきました。この戦略は、 1980年頃に開催されたロバート・アクセルロッドの2つのトーナメント^[³^]で、アナトール・ラポポートによって初めて導入されました。注目すべきは、（どちらの場合も）最も単純な戦略であり、直接的な競争において最も成功した戦略であったことです。ゲーム理論的アプローチを金融などの他の応用に拡張した人はほとんどいません。その文脈では、しっぺ返し戦略はトレンド追随戦略と関連していることが示されました^[⁴^]

影響

名前が敵対的な性質を強調しているにもかかわらず、概ね協力的な「しっぺ返し戦略」の成功は、多くの人を驚かせました。様々なチームが作成した戦略と対峙し、2つの大会で優勝しました。最初の大会の後、しっぺ返しに対抗するために特別に策定された新しい戦略は、互いの負の相互作用のために失敗しました。しっぺ返し以外の成功する戦略は、しっぺ返しとそれ自体の両方を考慮して策定されなければならなかったでしょう

この結果は、動物の集団、特に人間社会が、自然界における絶え間ない対立の中で生きる個体から予想されるような激しい競争や攻撃的な生き方ではなく、大部分あるいは完全に協力的な生き方へと進化してきた理由を説明するのに役立つかもしれない。この点、特にその人間社会と政治への応用は、ロバート・アクセルロッドの著書『協力の進化』の主題である。

さらに、報復戦略は、社会心理学者や社会学者が紛争を減らす効果的な手法を研究する上で役立ってきました。研究によると、一定期間競争関係にあった個人が互いに信頼しなくなった場合、最も効果的な競争逆転策は報復戦略の使用です。個人は一般的に行動同化、つまり協力的または競争的なグループメンバーの行動に自分の行動を合わせる傾向があります。したがって、報復戦略が協力から始まった場合、協力が起こります。一方、相手が競争する場合、報復戦略は相手も競争するように導きます。最終的には、相手のメンバーの行動はすべて、競争には競争、協力には協力というように、対応する反応で対抗されます。

紛争解決において、報復戦略が効果的である理由はいくつかあります。それは、この戦略が「明確」、「適切」、「挑発的」、「寛容的」であると認識されているからです。第一に、これは明確で認識しやすい戦略です。この戦略を用いる者は、その偶発性を素早く認識し、それに応じて行動を調整します。さらに、この戦略は協力から始まり、競争に応じて裏切るだけなので、「適切」であると考えられています。また、この戦略は競争相手に即座に報復を与えるため、「挑発的」です。最後に、競争相手が協力的な行動をとった場合、即座に協力が生まれるため、 「寛容的」です。

報復戦略の意味合いは、紛争研究、紛争解決、応用社会科学の多くの側面に関連しています。^{[ 5 ]}

数学

次の無限に繰り返される囚人のジレンマゲームを例に挙げましょう

	C	D
C	6, 6	2, 9
D	9, 2	3, 3

しっぺ返し戦略は、相手が以前に選択した戦略をコピーします。プレイヤーが戦略(C,C)で協力すれば、彼らは永遠に協力し続けます。

	1	2	3	4	…
p1	C	C	C	C	…
p2	C	C	C	C	…

協力により、以下の利得が得られます（割引率は） $\delta$

6+6\delta +6\delta^{2}+6\delta^{3}...,

等比級数の和は

{\frac {6}{1-\delta }}

プレイヤーが裏切り（D）に転じた場合、次のラウンドで罰せられます。p1が協力しp2が逸脱する結果と、その逆の結果を交互に繰り返します。

	1	2	3	4	…
p1	C	D	C	D	…
p2	D	C	D	C	…

偏差により次の結果が得られます。

9+2\delta +9\delta ^{2}+2\delta ^{3}+9\delta ^{4}+2\delta ^{5}...,

2つの等比級数の和は

{\frac {9}{1-\delta ^{2}}}+{\frac {2\delta }{1-\delta ^{2}}

逸脱の見返りが協力より優れていない場合は、協力を期待します。

{\begin{aligned}{\frac {6}{1-\delta }}&\geq {\frac {9}{1-\delta ^{2}}}+{\frac {2\delta }{1-\delta ^{2}}}\\{\frac {6}{1-\delta }}&\geq {\frac {9+2\delta }{1-\delta ^{2}}}\\{\frac {1-\delta ^{2}}{1}}\cdot {\frac {6}{1-\delta }}&\geq {\frac {9+2\delta }{\cancel {1-\delta ^{2}}}}\cdot {\frac {\cancel {1-\delta ^{2}}}{1}}\\{\frac {(1+\delta ){\cancel {(1-\delta )}}}{1}}\cdot {\frac {6}{\cancel {1-\delta }}}&\geq 9+2\delta \\6+6\delta &\geq 9+2\delta \\4\delta &\geq 3\\\delta &\geq {\frac {3}{4}}\end{aligned}}

以下の場合は協力を継続してください。 $\delta \geq {\frac {3}{4}}$

脱走を続ける場合、 $\delta <{\frac {3}{4}}$

問題

アクセルロッドは、直接競争のいくつかのケースにおいてこの戦略が最適であることを経験的に示しましたが、2人のエージェントがしっぺ返し戦略をとる場合、依然として脆弱性が残ります。どちらかのプレイヤーが出来事を解釈する際に一度だけ、1ビットでも誤りがあると、終わりのない「デススパイラル」に陥る可能性があります。つまり、一方のエージェントが裏切り、もう一方のエージェントが協力した場合、両エージェントは協力と裏切りを交互に繰り返すことになり、両エージェントが継続的に協力した場合よりも低い利得しか得られません。この状況は、学校の校庭での喧嘩から内戦や地域紛争に至るまで、現実世界の紛争で頻繁に発生します。こうした問題が生じる理由は、しっぺ返し戦略は、割引率が極めて限定的な条件下を除いて、サブゲーム完全均衡ではないからです。^[⁶^] このサブゲームは、しっぺ返し戦略をとる2人のエージェントによって直接到達することはできませんが、サブゲーム完全であるためには、戦略はすべてのサブゲームにおいてナッシュ均衡でなければなりません。さらに、エージェントのシグナリングに何らかのノイズが許容される場合、このサブゲームに到達する可能性があります。「悔恨の報復」として知られる報復のサブゲーム完璧な変種は、基本的な評判メカニズムを採用することで作成できます。^[⁷^]

ナイフエッジとは、「外生変数の値が正確に一致する場合にのみ存在する均衡である。変数を少しでも変化させると、ナイフエッジ均衡は消滅する。」^{[ 8 ]}

ナッシュ均衡とナイフエッジ均衡の両方になり得る。ナイフエッジ均衡と呼ばれるのは、均衡が正確な値に「不安定に依存」しているからである。

例：

	左	右
上	(X, X)	(0, 0)
下	(0, 0)	(-X, -X)

X = 0 と仮定します。(下、左) または (上、右) からの有益な逸脱はありません。しかし、X の値が少しでも逸脱すると、均衡はもはや成り立ちません。例えば、X の値が 0 ではなく 0.000001 の場合、上への逸脱が有益になります。したがって、均衡は非常に不安定です。Wikipedia の記事での使用法では、ナイフエッジ条件とは、非常にまれに、特定の条件が満たされ、たとえば X が特定の値に等しい場合にのみ均衡が存在するという事実を指します

この問題を軽減するために「しっぺ返し」が使えるかもしれません。以下の説明を参照してください。^{[ 9 ]}「しっぺ返しと許し」は、デススパイラルから抜け出すための同様の試みです。相手が裏切った場合、この戦略を採用しているプレイヤーは、いずれにしても次の動きで協力することがあります。プレイヤーが協力で対応する確率は、対戦相手の顔ぶれによって異なります。

さらに、報復戦略は、完全競争以外の状況では最適であるとは証明されていません。例えば、当事者が友人である場合、一方のプレイヤーが時折相手方の行動を逸脱しても、常に協力し合うことが友情にとって最善となる場合があります。現実世界のほとんどの状況は、報復戦略が勝利した完全競争よりも競争的ではありません。

しっぺ返しはグリムトリガーとは大きく異なり、相手が協力を選択した場合、即座に協力へと繋がるため、本質的に寛容な戦略です。一方、グリムトリガーは最も容赦のない戦略であり、たとえ一度でも不履行があれば、グリムトリガーを使っているプレイヤーはゲームの残り時間ずっと不履行を続けることになります。^{[ 10 ]}

バリエーション

しっぺ返し

しっぺ返しはしっぺ返しに似ていますが、相手が合意した戦略から2回裏切るまで、プレイヤーが報復することができます。この特徴により、しっぺ返し戦略を使うプレイヤーは、相手にとってより「寛容」に見えるようになります

しっぺ返し戦略では、相手が裏切ると、しっぺ返しプレイヤーは次の手で即座に裏切ることで対応します。これは、二つの報復戦略が互いに裏切り続けるという不幸な結果をもたらし、結果として双方にとって不利な結果をもたらします。しっぺ返しプレイヤーは、前の例のような「デススパイラル」を回避するため、最初の裏切りには異議を唱えません。相手が二回連続で裏切った場合、しっぺ返しプレイヤーは裏切ることで対応します。

この戦略は、 RANDにおけるロバート・アクセルロッドによる2回目のコンピュータシミュレーションで提唱された。最初の実験結果を分析した後、彼は参加者が「しっぺ返し」戦略に参加していれば、他のどのプログラムよりも高い累積スコアを獲得できたであろうことを突き止めた。その結果、彼自身も2回目のトーナメントに大きな期待を抱いてこの戦略に参加した。しかし残念ながら、2回目のトーナメントで参加したプログラムはより攻撃的な性質を持ち、その寛容さをうまく利用したため、「しっぺ返し」は（ゲーム理論の意味で）「しっぺ返し」よりも大幅に悪い結果となった。^[¹¹^]

寛大な報復

寛大な報復は、報復戦略の一種であり、相互の裏切りの長期サイクルを防ぐための許しのメカニズムを導入する。標準的な報復シナリオでは、一方のプレイヤーがミス、コミュニケーションミス、あるいはシステム内の「ノイズ」によって裏切った場合、もう一方のプレイヤーも次のラウンドで裏切る。これは、両プレイヤーが継続的に裏切るという終わりのない報復の「デススパイラル」に陥り、双方にとって不利な結果をもたらす可能性がある。^{[ 12 ]}^{[ 13 ]}

寛大な報復は、相手が裏切った後でも時折協力することでこの問題を解決しようとします。この戦略は一般的に以下の3つのルールに従います。

最初のラウンドでは必ず協力してください。
前のラウンドで相手が協力していた場合は、協力します。
前のラウンドで相手が裏切った場合、通常は裏切りますが、低い確率で協力することを選択します。

時折の寛容を許容することで、この戦略は報復の連鎖を断ち切り、ゲームを相互協力の状態に戻すことができます。この用語を考案したゲーム理論家ロバート・アクセルロッドは、この戦略はリスクを伴うものの、「ノイズ」（不完全な情報や実行エラー）のある環境では非常に効果的であり、偶発的な衝突が際限なくエスカレートするのを防ぐことができることを発見しました。

実際の使用

ピアツーピアファイル共有

BitTorrentピアは、ダウンロード速度を最適化するために「tit-for-tat」戦略を採用しています。^{[ 14 ]}より具体的には、ほとんどのBitTorrentピアは、BitTorrent用語では通常のアンチョークと呼ばれる、tit-for-tatの変形を使用しています。BitTorrentピアは、他のピアに割り当てるアップロードスロットの数が限られています。そのため、ピアのアップロード帯域幅が飽和状態になると、「tit-for-tat」戦略を採用します。協力は、アップロード帯域幅をダウンロード帯域幅と交換することで達成されます。したがって、ピアが自分のピアのアップロードに対してアップロードしていない場合、BitTorrentプログラムは非協力的なピアとの接続をチョークし、このアップロードスロットをより協力的なピアに割り当てます。通常のアンチョークは、囚人のジレンマにおいて常に最初の動きで協力することと相関しています。ピアは定期的に、ランダムに選択された非協力的なピア（アンチョーク）にアップロードスロットを割り当てますこれは楽観的アンチョーキングと呼ばれます。この動作により、より多くの協力ピアを探索できるようになり、以前は非協力的だったピアに2度目のチャンスが与えられます。この戦略の最適な閾値は依然として研究対象となっています。

動物コミュニティにおける相互利他主義の説明

動物の向社会行動に関する研究は、多くの動物行動学者や進化心理学者を、多くの動物群集において利他主義が進化する理由を説明するために、報復戦略を適用してきました。フォン・ノイマンとモルゲンシュテルン（1953）によって定式化された数学理論に由来する進化ゲーム理論は、メイナード・スミス（1972）によって初めて考案され、ロバート・ハインデによって鳥類の行動においてさらに深く研究されました。彼らがゲーム理論を動物の戦略の進化に適用したことで、動物行動を分析する全く新しい方法が確立されました。

互恵的利他主義は、餌、交配権、巣、縄張りといった取引において、恩恵を受ける側のコストが受益者の利益よりも小さい動物群集において機能します。この理論はまた、ニーズのバランスが逆転した場合、利他行為は報われるべきだと主張しています。報復しない「不正行為者」を特定し、罰するメカニズム、つまり事実上一種の報復行為は、互恵的利他主義を規制する上で重要です。例えば、報復行為はグッピーにおける協力的な捕食者調査行動のメカニズムであると示唆されています。

戦争

弱いと見なされたり、敵に協力していると見なされることを恐れて、どちらの側も紛争から逃げることができない、報復的な行為が、歴史を通して多くの長期にわたる紛争の原因となってきました

しかし、アナリストたちは、報復戦略が第一次世界大戦の塹壕戦で生まれた「生き、そして生きさせる」と呼ばれる自発的な非暴力行動にも見られることを発見した。わずか数百フィートしか離れていない塹壕に陣取った兵士たちは、暗黙の了解を育んでいた。一方の狙撃兵が兵士を殺害した場合、もう一方の兵士は同等の報復を期待した。逆に、しばらく誰も死ななかった場合、もう一方の兵士はこの暗黙の「休戦」を承認し、それに応じた行動を取った。こうして塹壕間の「個別和平」が生まれた。^[¹⁵^]

北アイルランド紛争

北アイルランド紛争の間、この言葉はアイルランド共和主義者とアルスター統一主義者の間で「目には目を」という行動が激化していることを表すために使われました。^[¹⁶^]これは、IRAによるレッドライオン・パブ爆破事件とそれに続くマクガークス・バー爆破事件に見ることができます。どちらも民間人を標的としていました。具体的には、虐殺攻撃は統一主義者と共和主義者のコミュニティの相互殺害を中心に構成されていましたが、どちらのコミュニティも一般的に暴力には関心がありませんでした。^[¹⁷^]この宗派的な考え方から、 「報復爆撃」という言葉が北アイルランド社会の共通語彙に入りました。 ^[¹⁸^]^[¹⁹^]

参考文献

^ 「tit for tat」。Etymology Online 。 2023年7月26日時点のオリジナルよりアーカイブ
^ヒープ、ショーン・ハーグリーブス、ヴァルファキス、ヤニス(2004). 『ゲーム理論：批評的テキスト』ラウトレッジ、p. 191. ISBN 978-0-415-25094-8。
^ 「アクセルロッド・トーナメント」 2011年9月5日
^ Mahdavi-Damghani, Babak; Roberts, Stephen (2023). 「市場インパクトを考慮したバックテストのための現実的なアルゴリズム取引市場シミュレーター構築ガイドライン：ニューラルネットワーク形式のエージェントベース戦略、エコシステムダイナミクス、検出」. Algorithmic Finance . Pre -press (1): 1– 25. doi : 10.3233/AF-220356 .
^フォーサイス、DR（2010）グループダイナミクス
^ギンティス、ハーバート（2000年）『ゲーム理論の進化』プリンストン大学出版局、ISBN 978-0-691-00943-8。
^ボイド、ロバート (1989). 「反復囚人のジレンマゲームにおける誤りは進化的安定性を可能にする」.理論生物学ジャーナル. 136 (1): 47–56 . Bibcode : 1989JThBi.136...47B . CiteSeerX 10.1.1.405.507 . doi : 10.1016/S0022-5193(89)80188-2 . PMID 2779259
^ 「ナイフエッジ均衡 - ゲーム理論101」。 2018年12月10日閲覧。
^リチャード・ドーキンス（1989年）『利己的な遺伝子』オックスフォード大学出版局、ISBN 978-0-19-929115-1。
^アクセルロッド、ロバート (2000-01-01). 「協力理論における6つの進歩について」. Analyse & Kritik . 22 (1): 130–151 . CiteSeerX 10.1.1.5.6149 . doi : 10.1515/auk-2000-0107 . ISSN 2365-9858 . S2CID 17399009
^アクセルロッド、ロバート (1984). 『協力の進化』ベーシックブックス. ISBN 978-0-465-02121-5。
^ケイ、ロジャー. 「寛大な報復：勝利の戦略」 .フォーブス. 2025年12月5日閲覧
^ 「ゲーム理論による現実世界のジレンマへの究極の答え：「寛大な報復」 | HackerNoon」 hackernoon.com 2025年12月5日閲覧。
^ Cohen, Bram (2003年5月22日). 「インセンティブがBitTorrentの堅牢性を高める」(PDF) . BitTorrent.org . 2011年2月5日閲覧.
^ 「ナイスガイが最初に終わる」リチャード・ドーキンス著、BBC、1986年。
^ヒューム、ジョン (1986). 「新しいアイルランド：多様性の受容」 . 『アイルランド季刊研究』 . 75 (300): 378– 383. JSTOR 30090790 .
^サヴァリック、ミシェル（2014年10月11日）. ロマン・ガルベイ、ポーリン・シュナッパー（編）. 『イギリス諸島における民族的多様性の政治』 Palgrave Macmillan UK. pp. 174– 188. doi : 10.1057/9781137351548_10 – Springer Link経由.
^対テロ殺人と暫定IRA爆破事件、1970-1998年ポール・ギル、ユニバーシティ・カレッジ・ロンドンジェームズ・ピアッツァ、ペンシルベニア州立大学ジョン・ホーガン、ジョージア州立大学
^マニー、グレゴリー、マイケル・マッカーシー、グレース・ユキッチ。「北アイルランドにおける民間人に対する政治的暴力の解明：コンテンション重視のアプローチ」『モビリゼーション：国際季刊誌』第17巻第1号（2012年）：27-48ページ。

外部リンク

[1] 「tit for tat」。Etymology Online 。 2023年7月26日時点のオリジナルよりアーカイブ

[2] ヒープ、ショーン・ハーグリーブス、ヴァルファキス、ヤニス(2004). 『ゲーム理論：批評的テキスト』ラウトレッジ、p. 191. ISBN 978-0-415-25094-8。

[3] 「アクセルロッド・トーナメント」 2011年9月5日

[AlgorithmicFinance.com-4] Mahdavi-Damghani, Babak; Roberts, Stephen (2023). 「市場インパクトを考慮したバックテストのための現実的なアルゴリズム取引市場シミュレーター構築ガイドライン：ニューラルネットワーク形式のエージェントベース戦略、エコシステムダイナミクス、検出」. Algorithmic Finance . Pre -press (1): 1– 25. doi : 10.3233/AF-220356 .

[5] フォーサイス、DR（2010）グループダイナミクス

[6] ギンティス、ハーバート（2000年）『ゲーム理論の進化』プリンストン大学出版局、ISBN 978-0-691-00943-8。

[7] ボイド、ロバート (1989). 「反復囚人のジレンマゲームにおける誤りは進化的安定性を可能にする」.理論生物学ジャーナル. 136 (1): 47–56 . Bibcode : 1989JThBi.136...47B . CiteSeerX 10.1.1.405.507 . doi : 10.1016/S0022-5193(89)80188-2 . PMID 2779259

[8] 「ナイフエッジ均衡 - ゲーム理論101」。 2018年12月10日閲覧。

[9] リチャード・ドーキンス（1989年）『利己的な遺伝子』オックスフォード大学出版局、ISBN 978-0-19-929115-1。

[10] アクセルロッド、ロバート (2000-01-01). 「協力理論における6つの進歩について」. Analyse & Kritik . 22 (1): 130–151 . CiteSeerX 10.1.1.5.6149 . doi : 10.1515/auk-2000-0107 . ISSN 2365-9858 . S2CID 17399009

[11] アクセルロッド、ロバート (1984). 『協力の進化』ベーシックブックス. ISBN 978-0-465-02121-5。

[12] ケイ、ロジャー. 「寛大な報復：勝利の戦略」 .フォーブス. 2025年12月5日閲覧

[13] 「ゲーム理論による現実世界のジレンマへの究極の答え：「寛大な報復」 | HackerNoon」 hackernoon.com 2025年12月5日閲覧。

[14] Cohen, Bram (2003年5月22日). 「インセンティブがBitTorrentの堅牢性を高める」(PDF) . BitTorrent.org . 2011年2月5日閲覧.

[15] 「ナイスガイが最初に終わる」リチャード・ドーキンス著、BBC、1986年。

[16] ヒューム、ジョン (1986). 「新しいアイルランド：多様性の受容」 . 『アイルランド季刊研究』 . 75 (300): 378– 383. JSTOR 30090790 .

[17] サヴァリック、ミシェル（2014年10月11日）. ロマン・ガルベイ、ポーリン・シュナッパー（編）. 『イギリス諸島における民族的多様性の政治』 Palgrave Macmillan UK. pp. 174– 188. doi : 10.1057/9781137351548_10 – Springer Link経由.

[18] 対テロ殺人と暫定IRA爆破事件、1970-1998年ポール・ギル、ユニバーシティ・カレッジ・ロンドンジェームズ・ピアッツァ、ペンシルベニア州立大学ジョン・ホーガン、ジョージア州立大学

[19] マニー、グレゴリー、マイケル・マッカーシー、グレース・ユキッチ。「北アイルランドにおける民間人に対する政治的暴力の解明：コンテンション重視のアプローチ」『モビリゼーション：国際季刊誌』第17巻第1号（2012年）：27-48ページ。

[

[

[

[

[ 5 ]

[

[

[ 8 ]

[ 9 ]

[ 10 ]

[

[ 12 ]

[ 13 ]

[ 14 ]

[

[

[

[

[

仕返し