囚徒困境

囚徒困境（英語：Prisoner's dilemma）、囚犯兩難^[1]是博弈论的非零和博弈中具代表性的例子，反映個人最佳選擇並非群體的最佳選擇，且在一个群体中，个人做出理性选择却往往导致集体的非理性。雖然這是一個理論上的情境，但現實中的價格競爭等也會出現類似情況。

單次發生的囚徒困境，和多次重複的囚徒困境結果不會一樣。

在重复的囚徒困境中，博弈被反复地进行。因而参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时，合作可能会作为均衡的结果出现。欺骗行为被受到惩罚的威胁所制止，从而导向一个较好的的结果。当次数接近无限，纳什均衡趋向于帕累托最优。

當囚徒們可以互相溝通時，彼此合作可為全體帶來最佳利益（縮短刑期）；但在無法溝通時，出賣同伙可為自己帶來更多的利益（無罪開釋），同時同伙把自己招出來可為他帶來利益。所以，互相出賣，反而能獲得最大利益。實際上，執法機構不可能設立如此情境來誘使囚徒招供，因為囚徒必須考慮刑期以外的因素（出賣同伙會受到報復等），則不能只以刑期作考量，所以是一個理論上的情境。

经典的囚徒困境

1950年，由就職於兰德公司的梅里尔·M·弗勒德和梅爾文·德雷希爾（英语：Melvin Dresher）擬定出相關困境的理論，後來由顧問阿尔伯特·W·塔克以囚徒方式阐述，並命名为「囚徒困境」。经典的囚徒困境如下：

警方逮捕甲、乙两名嫌疑犯，但沒有足够证据指控二人有罪。於是警方分开囚禁嫌疑犯，分别和二人见面，并向雙方提供以下相同的选择：

若一人認罪並作证检控對方（相關術語稱「背叛」對方），而對方保持沉默，此人将即時獲释，沉默者将判監10年。
若二人都保持沉默（相關術語稱互相「合作」），则二人同樣判监半年。
若二人都互相检举（互相「背叛」），則二人同樣判監5年。

用表格概述如下：

	乙沉默（合作）	乙認罪（背叛）
甲沉默（合作）	二人同服刑半年	甲服刑10年；乙即時獲釋
甲認罪（背叛）	甲即時獲釋；乙服刑10年	二人同服刑5年

解說

如同博弈论的其他例證，囚徒困境假定每個參與者（即「囚徒」）都是利己的，即都尋求最大自身利益，而不關心另一參與者的利益。參與者某一策略所得利益，如果在任何情況下都比其他策略要低的話，此策略稱為「嚴格劣勢」，理性的參與者絕不會選擇。另外，没有任何其他力量干预个人决策，参与者可完全按照自己意愿选择策略。

囚徒到底應該選擇哪一項策略，才能將自己個人的刑期縮至最短？兩名囚徒由於隔絕監禁，並不知道對方选择；而即使他们能交谈，還是未必能夠盡信對方不會反口。就個人的理性選擇而言，檢舉背叛對方所得刑期，總比沉默要來得低。試設想困境中兩名理性囚徒會如何作出選擇：

若對方沉默、我背叛會讓我獲釋，所以會選擇背叛。
若對方背叛指控我，我也要指控對方才能得到較低的刑期，所以也是會選擇背叛。

二人面對的情況一樣，所以二人的理性思考都会得出相同的结论——选择背叛。背叛是兩種策略之中的支配性策略。因此，这場博弈中唯一可能達到的纳什均衡，就是雙方参与者都背叛對方，結果二人同樣服刑5年。

这場博弈的纳什均衡，顯然不是顧及團體利益的帕累托最优解决方案。以全体利益而言，如果两个参与者都合作保持沉默，兩人都只會被判刑半年，总体利益更高，結果也比兩人背叛對方、判刑5年的情況較佳。但根據以上假設，二人均為理性的個人，且只追求自己個人利益。均衡狀況會是兩個囚徒都选择背叛，结果二人判监均比合作為高，總體利益較合作為低。这就是“困境”所在。例子有效地证明了：非零和博弈中，帕累托最优和纳什均衡是互相冲突的。

固定局數的囚徒困境

概括而言囚徒困境進行第一次后会出现以下两种情况：

甲在第一次中被乙指控，即會在第二次指控乙，最终导致，甲即时获释，乙服刑10年或二人同服刑5年这两种情况。

双方均保持沉默，即会建立互信的關係，最终导致，二人同服刑半年。

但互信的关系并非牢不可破，这一点也可以被利用，即甲，乙在第一次中共同选择沉默而赢得对方的信任，但甲或乙中的一人在获得对方的信任后指控对方而获得自身最大的利益即自身即时获释，但对方将服刑10年。这是一个以牺牲对方利益而获得自身最大利益的一种策略。

假设兩個囚徒均欲利用此策略，并将局数推演为十次，那么就会出现如下的情况：在第一局到第九局的过程中双方均会保持沉默，以期望建立互信關係，并在第十局指控对方。这将最终导致二人同服刑5年。

再一次假设，双方都明确对方会使用与自己同样的策略，即知道對方會在第十局中指控自己。这样，在第九局时两者间的信任关系的建立即是没有意义的。如此類推，第八局到第一局中信任关系的建立也是没有意义的，即是十局都會互相背叛，也就是纳什均衡。也可推论，在如此的情况下，只有在囚徒困境的局數在不肯定的情況下（即双方均不知道进行的局数），才會出現互相保持沉默以获得信任关系的現象。

一般形式

整理囚徒困境的基本博弈结构，可更清楚地分析囚徒困境。实验经济学常用這種博弈的一般形式分析各种论题。以下是實現一般形式的其中一例：

假设有两个参与者和一个庄家。参与者每人有一式两张卡片，各印有“合作”和“背叛”。参与者各把一张卡片文字面朝下，放在庄家面前。文字面朝下排除了參與者知道對方選擇的可能性^{[註 1]}。然后，庄家翻开兩個参与者卡片，根據以下規則支付利益：

一人背叛、一人合作：背叛者得5分（背叛诱惑），合作者0分（受骗支付）。
二人都合作：各得3分（合作报酬）。
二人都背叛：各得1分（背叛惩罚）。

用支付矩阵表格展示支付如下（以红和蓝分别表示二参与者）：

一般形式囚徒困境的支付矩阵
	合作	背叛
合作	3，3	0，5
背叛	5，0	1，1

以“T、R、P、S”符号表示
	合作	背叛
合作	R，R	S，T
背叛	T，S	P，P

以“胜－负”术语表示
	合作	背叛
合作	胜，胜	大负，大胜
背叛	大胜，大负	负，负

简单博弈获得的点数可以得出一些一般化的结论。

T、R、P、S符号表
符号	分数	英文	中文（非术语）	解释
T	5	Temptation	背叛诱惑	单独背叛成功所得。
R	3	Reward	合作报酬	共同合作所得
P	1	Punishment	背叛惩罚	共同背叛所得
S	0	Suckers	受骗支付	被单独背叛所获

若以T（Temptation）=背叛诱惑，R（Reward）=合作报酬，P（Punishment）=背叛惩罚，S（Suckers）=受骗支付，以个人选择得分而言，可得出以下不等式：

$T>R>P>S$

（解：从5>3>1>0获得以上不等式）

若以整体获分而言，将得出以下不等式：

$2R>T+S$ 或 $2R>2P$

（解：2×3>5+0或2×3>2x1；合作2人共得6分，比起互相背叛的共得2分及单独背叛的共得5分，显然合作获分比背叛高。合作在团体而言是支配性策略。）

而重复博弈或重复的囚徒困境将会使参与者从注重T>R>P>S转变成注重2R>T+S。就是说将使参与者脱离困境。

以上理论是道格拉斯·霍夫施塔特创建的。

现实的例子

上述例子可能顯得不甚自然，但现实中，无论是人类社会或大自然都可以找到类似囚徒困境的例子，將結果劃成同樣的收益矩阵。社会科学中的经济学、政治学和社会学，以及自然科学的动物行动学、进化生物学等学科，都可以用囚徒困境分析，模擬生物面對无止境的囚徒困境博弈。囚徒困境可以廣為使用，說明這種博弈的重要性。以下为各界例子：

政治学例子：军备竞赛

在政治学中，兩国之间的军备竞赛可以用囚徒困境來描述。两国都可以聲稱有两种选择：增加军备（背叛）、或是达成削减武器协议（合作）。兩國都无法肯定对方会遵守协议，因此两国最终会倾向增加军备。似乎自相矛盾的是，雖然增加軍備會是兩國的「理性」行為，但结果卻顯得「非理性」（例如會对经济造成损坏等）。这可視作遏制理论的推论，就是以强大的军事力量来遏制对方的进攻，以达到和平。

经济学例子：关税战

假设两个国家，在关税上两国可以有以下选择:

提高关税，以保护自己的商品。（背叛）
与对方达成关税协定，降低关税以利各自商品流通。（合作）

当一国因某些因素不遵守关税协定，而独自提高关税（背叛）时，另一国也会作出同样反应（亦背叛），这就引发了关税战，两国的商品失去了对方的市场，对本身经济也造成损害（共同背叛的结果）。然后二国又重新达成关税协定。（重复博弈的结果是将发现共同合作利益最大。）

商业例子：广告战

商业活动中亦会出现各种囚徒困境例子。以广告竞争为例。

两个公司互相竞争，两个公司的广告互相影响，即一公司的广告较被顾客接受则会夺取对方的部分收入。但若二者同时期发出品质类似的广告，收入增加很少但成本增加。但若不提高广告品质，生意又会被对方夺走。

此二公司可以有二选择：

互相达成协议，减少广告的开支。（合作）
增加广告开支，设法提升广告的品质，压倒对方。（背叛）

若二公司不信任对方，无法合作，背叛成为支配性策略时，二公司将陷入广告战，而广告成本的增加损害了二公司的收益，这就是陷入囚徒困境。在现实中，要二互相竞争的公司达成合作协议是较为困难的，多数都会陷入囚徒困境中。

自行车赛例子

自行车赛事的比赛策略也是一种博弈，而其结果可用囚徒困境的研究成果解释。

例如每年都举办的環法自行車賽中有以下情况：

选手们在到终点前的路程常以「大队伍」（法語：peloton）方式前进，他们采取这策略是为了令自己不至于太落后，又出力适中。而最前方的选手在迎风时是最费力的，所以选择在前方是最差的策略。

通常会发生这样的情况，大家起先都不愿意向前（共同背叛），这使得全体速度很慢，而后通常会有二或多位选手骑到前面，然后一段时间内互相交换最前方位置，以分担风的阻力（共同合作），使得全体的速度有所提升。

而这时如果前方的其中一人试图一直保持前方位置（背叛），其他选手以及大队伍就会趕上（共同背叛）。而通常的情况是，在最前面次数最多的选手（合作）通常会到最后被落后的选手赶上（背叛），因为后面的选手骑在前面选手的冲流之中，比较不费力。

這情境也能用志願者困境解釋。

与囚徒困境相关的各事件

异想

威廉·庞德斯通（William Poundstone）在他的著作中，以一新西兰的例子来说明囚徒困境。

在新西兰存在誠實的讀者現象，报亭既无管理员也不上锁，买报纸的人自行放下钱后拿走报纸。当然某些人可能取走报纸却不付钱（背叛），但由于大家认识到如果每个人都偷窃报纸（共同背叛）会造成以后不方便的有害结果，这种情形很少发生。

这例子特别之处是新西兰人并没有被任何其他因素影响而能脱离囚徒困境，也并没有任何人特别去注意报亭。人们守规则是为了避免共同背叛带来的恶果。这种避免囚徒困境的大家共同的推理或想法被称为“异想（magical thinking）”。^{[註 2]}

「認罪減刑」不可行

囚徒困境的结论是许多国家中團體罪犯中認罪減刑（英文：plea bargain）被禁止的原因之一。

囚徒困境带来的结论是：如果有二个罪犯，其中一人犯罪而另外一人是无辜的，犯罪者会为了减刑坦白一切甚至冤枉清白者（单独背叛）。

最糟糕的情况是，如果他们二人都被判入狱，坦白的犯罪者刑期少，坚持无罪的冤枉者刑期反而更多。

公用品悲劇

现实的博弈参与者不只一方，会有多方参与的囚徒困境。

加勒特·詹姆斯·哈丁（Garrett James Hardin）的公用品悲劇就是一例：「公用品悲劇是指凡是屬於最多數人的公共财产常常是最少受人照顧的事物」，例如渔业，公海中的鱼是属于公共的，而在本身不滥捕其他人也滥捕的思想下，渔民会没有节制的大捞特捞，结果海洋生态破坏，渔民的生计也受影响（共同背叛的结果）。

但是，多方囚徒困境的提法有待商榷，因为其总是可以被分解为一组组经典的二方囚徒困境。就是说只有二方的囚徒困境，没有多方的。所谓多方的囚徒困境只是由多个二方囚徒困境混杂在一起而形成的错觉。

重复的囚徒困境（多人）

美國政治學家罗伯特·阿克塞尔罗德（Robert Marshall Axelrod）在其著作《合作的进化》（The Evolution of Cooperation）中，探索了经典囚徒困境情景的一个扩展，并把它称作“重复的囚徒困境”（IPD）。在这个博弈中，参与者必须反复地选择他们彼此相关的策略，并且记住他们以前的对抗。阿克塞尔罗德邀请全世界的学术同行来设计计算机策略，并在一个重复囚徒困境竞赛中互相竞争。参赛的程序的差异广泛地存在于这些方面：算法的复杂性、最初的对抗、宽恕的能力等等。

阿克塞尔罗德发现，当这些对抗被每个选择不同策略的参与者一再重复了很长时间之后，从利己的角度来判断，最终“贪婪”策略趋向于减少，而比较“利他”策略更多地被采用。他用这个博弈来说明，通过自然选择，一种利他行为的机制可能从最初纯粹的自私机制进化而来。

最佳确定性策略被认为是“以牙还牙”，这是俄裔美籍數學心理學家阿纳托尔·拉波波特（Anatol Rapoport）开发并运用到锦标赛中的方法。它是所有参赛程序中最简单的，只包含了四行BASIC语言，并且赢得了比赛。这个策略只不过是在重复博弈的开头合作，然后，采取你的对手前一回合的策略。更好些的策略是“宽恕地以牙还牙”。当你的对手背叛，在下一回合中你无论如何要以小概率（大约是1%-5%）时而合作一下。这是考虑到偶尔要从循环背叛的受骗中复原。当错误传达被引入博弈时，“宽恕地以牙还牙”是最佳的。这意味着有时你的动作被错误地传达给你的对手：你合作但是你的对手听说你背叛了。

通过分析高分策略，阿克塞尔罗德指定了策略获得成功的几个必要条件：

友善：最重要的条件是策略必须“友善”，这就是说，不要在对手背叛之前先背叛。几乎所有的高分策略都是友善的。因此，完全自私的策略仅仅出于自私的原因，也永远不会首先打击其对手。
报复：但是，阿克塞尔罗德主张，成功的策略必须不是一个盲目乐观者。要始终报复。一个非报复策略的例子是始终合作。这是一个非常糟糕的选择，因为“下流”策略将残酷地剥削这样的傻瓜。
宽恕：成功策略的另一个品质是必须要宽恕。虽然它们不报复，但是如果对手不继续背叛，它们会一再退却到合作。这停止了报复和反报复的长期进行，最大化了得分点数。
不嫉妒：最后一个品质是不嫉妒，就是说不去争取得到高于对手的分数（对于“友善”的策略来说这也是不可能的，也就是说“友善”的策略永远无法得到高于对手的分数）。

因此，阿克塞尔罗德得到一种给人以乌托邦印象的结论，认为自私的个人为了其自私的利益会趋向友善、宽恕和不嫉妒。阿克塞尔罗德关于重复囚徒困境的研究的重要结论之一，是友善的家伙能先完成交易。

重新考虑经典的囚徒困境一节中给定的军备竞赛模型：结论是，只是理性策略增进了军事力量，似乎两个国家都宁可花费其GDP在枪炮而不是黄油上。有趣的是，企图说明对抗国家实际上以这种方式（在“重复囚徒困境假定”下的不同时期，军费支出在“高”和“低”之间反复）竞赛的尝试，却经常表明假定的军备竞赛并没有如预想的那样出现。（例如希腊人和土耳其人的军费支出，看来并不像遵循“以牙还牙”的重复囚徒困境式的军备竞赛，却更可能是被其国内的政策所驱使。）这可能是一次性博弈和重复性博弈中的理性行为不同的例子。

对一次性囚徒困境博弈来说，最佳（点数最大化的）策略是简单地背叛；正如前面解释的，无论对手的行动可能是什么，这都是真实的。但是，在重复的囚徒困境博弈中，最佳策略依赖于可能的对手的策略，和他们怎样对背叛和合作作出反应。例如，考虑这样一个人群，那里每个人每次都背叛，除了一个人是遵循以牙还牙策略。这个人处于一种轻微的不利地位，因为第一回合的损失。在这样的人群中，对这个人来说最佳策略就是每次都背叛。在一个有一定的百分比的总背叛者而剩下的则是以牙还牙者的人群中，对个人来说的最佳策略依赖于这个百分比和博弈的长度。

一般有两种方法得到最佳策略：

贝叶斯纳什均衡：如果对抗策略的统计分布能被确定（例如，50％以牙还牙，50％一直合作），就能从数学上获得最佳的相对策略^[2]。
已经有了人群的蒙特卡罗模拟，在这里低分个人消失了，高分个人一再被生产出来（一种获得最佳策略的天才算法）。决赛人群中的算法合成通常依赖于初赛人群中的算法合成。

尽管以牙还牙始终被认为是最可靠的基本策略，但是在重复囚徒困境的20周年纪念赛中，来自英国南安普敦大学的一个小组（由尼古拉斯·詹宁斯（Nicholas Jennings）领导^[3]，包括了拉蒂普·达什（Rajdeep Dash）、萨瓦帕里·拉姆琼（Sarvapali Ramchurn）、亚历克斯·罗杰斯（Alex Rogers）斯和皮鲁克里士南·维特林根（Perukrishnen Vytelingum））介绍了一个新的策略，这个策略证明了它比以牙还牙更成功。这个策略依赖于程序之间的合作，为单一程序中获得了最高的点数。南安普敦大学提交了60个程序参与竞赛，这些程序的开头被设计成通过一组5到10个的动作去彼此识别。一旦这些识别被作出，一个程序将总是合作，其他程序则总是背叛，保证背叛者得到最大的点数。如果程序识别出它在操作一个非南安普敦参与者，这程序将持续地背叛，企图去最小化竞争程序的得分。结果^{[註 3]}，这个策略以获得前3位结束了竞赛，也得到了大量接近底部的位置。虽然这个策略显著地证明了比以牙还牙有效，但是这是因为利用了下述事实：在这个特殊的竞赛中，多重通道是被允许的。在一方只能控制单一参与者的竞赛中，以牙还牙确实是更好的策略。

如果重复囚徒困境将被精确地重复N次，已知N是一个常数，那么会产生另一个有趣的事实。纳什均衡就是每次都背叛。这很容易用归纳法证明。你也可以在最后的回合背叛，既然你的对手将没有机会惩罚你。因此，你们都将在最后的回合背叛。这时，你可以在倒数第二回合中背叛，既然最后一回无论你做什么，你的对手都将背叛。依此类推。为了合作以保持请求，这时未来必须对两个参与者来说是不确定的。一个解决方案是让博弈总次数N变成无限大或不可预期的。对未来的预期必须是无法确定的长度。

另一个单独的案例是“永不停止”的囚徒困境。这个博弈被重复很多次，而且你的分数是一个平均数（当然是用计算机计算的）。

囚徒困境博弈是某些人类合作和信任理论的基础。假定囚徒困境能够模拟需要信任的两人之间的交流，群体的合作行为可以用有多个参与者的、重复博弈的变体来模拟。这从而引起了许许多多学者经久不衰的兴趣。1975年，格罗夫曼（Grofman）和普尔（Pool）估计，致力于这方面研究的学术文章，数量超过2000篇。

学习心理学和博弈论

当博弈参与者能学会估计其他参与者背叛的可能性，他们自身的行为就为他们关于其他人的经验所影响。简单的统计显示，总体上，缺乏经验的参与者与其他参与者的互动，或者是典型的好，或者是典型的坏。如果他们在这些经验的基础上行动，（通过更多的背叛或合作，否则）他们可能在未来的交易中受损。随着经验逐渐丰富，他们获得了对背叛可能性的更真实的印象，变得更成功地参与博弈。不成熟的参与者经历的早期交易对他们未来参与的影响，可能比这些交易对成熟的参与者的影响要大得多。这个原理部分地解释了，为什么年轻人的成长经验这么具有影响力，以及为什么他们特别容易被欺负，有时他们本身最后也成为欺凌弱小者。

群体中背叛的可能性，可以被合作的经验所削弱^{[註 4]}，因为先前的博弈建立了信任。因此自我牺牲行为可以，例如，加强团体的道德品质。如果团体很小，积极行为更可能以互相肯定的方式——鼓励这个团体中的个人继续合作——得到反馈。这与相似的困境有关：鼓励那些你将援助的人，从可能使他们处于危险的境地的行为中得到满足。这类方法主要在互惠利他主义、群选择、血缘选择和道德哲学的研究中涉及。

参见

注释

^ 获知其他人策略不被考虑的理由是：即使有人能获知他人策略，“背叛”仍然是最佳的策略，无论他获知对方选择“合作”或“背叛”都是如此。如果人的自私不改变的话，囚徒困境还是存在，永远达不到团体最大利益。所以知不知他人策略对囚徒困境的存在几乎没有影响。
^ 除了解释没有小偷小摸，异想还用于解释志愿投票之类的事情（在非投票者被认为是搭便车者的地方）。可能，这还可以用来解释维基百科贡献：文本在如下的假定下被添加——如果没人贡献，相似的人也将不会去贡献（即从效果到缘由的争论）。或者，解释要依赖于可预料的未来行动（不需要神奇的联系）。为未来的交流作模型需要增加有限的维，就像在重复的囚徒困境一节中给定的。
^ 2004年度囚徒困境锦标赛结果显示高波·拉姆琼的南安普敦大学策略位于前3名，尽管与GRIM策略相比，有较少的胜利和更多的失败。（注意，在囚徒困境锦标赛中，博弈的目标不是“赢得”比赛——通过经常背叛，这很容易就能达到。）同样需要指出的是，即使在软件策略（由南安普敦大学的小组开发）之间没有隐含结论，以牙还牙也不总是任何既定竞赛的绝对赢家。说得更确切些，它在一系列竞赛中的最终结果胜过它的对手。（在任何项目中，给定的策略能稍微比以牙还牙更适应竞赛，但是以牙还牙更稳固）。这同样适用于附加宽恕变量的以牙还牙和其他最佳策略：在任何一天，它们可能无法“赢得”一个对抗策略的特别组合。
^ 这个争论——关于出于信任的合作的发展——出自《群众的智慧》，此书表明，长久的资本主义能够围绕教友派信徒的核心形成，这些教友派信徒们总是体面地同他们的生意合伙人交易（而不是背叛和食言——一种已经阻碍了早先的、非强制履行的长期境外合同的现象）。这表明，和可靠的商人作交易使合作拟子（meme）传播给其他交易者，这些交易者又把它传播到更远的地方，直到高水平的合作在一般商业活动中成为有利可图的策略。

参考文献

^ prisoner's dilemma - 囚犯兩難. terms.naer.edu.tw. [2022-09-18]. （原始内容存档于2022-09-22）.
^ 例如参见2003年特拉维夫大学的一项研究Bayesian Nash equilibrium; a statistical test of the hypothesis（贝叶斯-纳什均衡；假说的统计检验）：关于概念的讨论，和是否能运用于真实的经济或统计情形。
^ 存档副本. [2013-07-16]. （原始内容存档于2007-07-15）.
^ 道格拉斯·霍夫斯塔特. 元逻辑命题：追问思维和模式的本质. 班坦·戴尔出版集团. 1985. ISBN 0-465-04566-9. - 参阅第29章 囚徒困境计算机竞赛和合作的进化。

罗伯特·阿克塞尔罗德和威廉·汉密尔顿，《合作的进化》（"The Evolution of Cooperation"），出自《科学》（Science），1981年，第211期：1390-1396页。
罗伯特·阿克塞尔罗德，《合作的进化》（The Evolution of Cooperation），Basic Books出版社，ISBN 978-0-465-02121-5。
罗伯特·阿克塞尔罗德，《合作的复杂性》（The Complexity of Cooperation），普林斯顿大学出版社，1997年，ISBN 978-0-691-01567-5。
理查德·道金斯，《自私的基因》（The Selfish Gene），第二版——有两章关于合作的进化，1990年，ISBN 978-0-19-286092-7。
格罗夫曼和普尔，《重复囚徒困境博弈的贝叶斯模型》（"Bayesian Models for Iterated Prisoner's Dilemma Games"），1975年，出自《一般系统》（General Systems），第20期：185—194页。
加勒特·哈丁，《公共地悲剧》（页面存档备份，存于互联网档案馆）（"The Tragedy of the Commons"），出自《科学》（Science），1968年，第162期：1243-1248页。
科勒普斯、戴维、罗伯特·威尔逊、保罗·米尔格罗姆和约翰·罗伯茨，《有限重复囚徒困境中的理性合作》（"Rational Cooperation in the Finitely Repeated Prisoners' Dilemma"），出自《经济理论杂志》（Journal of Economic Theory），1982年，第27（2）期：245-252页。
保罗·米尔格罗姆，《阿克斯洛德的合作的进化》（"Axelrod's The Evolution of Cooperation"），出自《兰德经济学杂志》（Rand Journal of Economics），1984年，第15（2）期：30-59页。
威廉·庞德斯通，《囚徒困境：约翰·冯诺依曼、博弈论和炸弹之谜》（Prisoner's Dilemma: John von Neumann, Game Theory, and the Puzzle of the Bomb），Doubleday出版社，1992年，ISBN 978-0-385-41567-5。如标题所指出的，这是一个广泛流行的入门介绍。
阿纳托尔·拉波波特和阿尔伯特·查马哈，《囚徒困境》（Prisoner's Dilemma），密歇根大学出版社，1965年。此书解释了许多实验，实验中进行了囚徒困境心理博弈。
汤姆·费尔霍夫，《交易者困境：囚徒困境的连续版本》（页面存档备份，存于互联网档案馆）（"The Trader's Dilemma: A Continuous Version of the Prisoner's Dilemma"），《计算机科学讲义》（Computing Science Notes）93/02，1998年，荷兰爱因霍芬科技大学，数学和计算机科学系。
新方法赢得囚徒困境比赛（页面存档备份，存于互联网档案馆）（来自Wired.com）。

外部链接

Game Theory（页面存档备份，存于互联网档案馆） - 一篇博弈论入门介绍（PDF文件），对囚徒困境有一个简要而准确的阐述，并附带有定义术语表。
Game Theory .net - Repeated Prisoner's Dilemma Applet（页面存档备份，存于互联网档案馆） - 在线进行重复囚徒困境博弈
Play the prisoner's dilemma game（页面存档备份，存于互联网档案馆） - 另一个在线的重复囚徒困境博弈
Undecidability in the Spatialized Prisoner's Dilemma: Some Philosophical Implications
The Games Economists Play（页面存档备份，存于互联网档案馆）
Prisoner’s Dilemma（页面存档备份，存于互联网档案馆） - 斯坦福哲学百科的定义
Elmer G. Wiens, Nonnegotiable Two Person Generalized (Non-Zero) Sum Games（页面存档备份，存于互联网档案馆）

[2] 获知其他人策略不被考虑的理由是：即使有人能获知他人策略，“背叛”仍然是最佳的策略，无论他获知对方选择“合作”或“背叛”都是如此。如果人的自私不改变的话，囚徒困境还是存在，永远达不到团体最大利益。所以知不知他人策略对囚徒困境的存在几乎没有影响。

[3] 除了解释没有小偷小摸，异想还用于解释志愿投票之类的事情（在非投票者被认为是搭便车者的地方）。可能，这还可以用来解释维基百科贡献：文本在如下的假定下被添加——如果没人贡献，相似的人也将不会去贡献（即从效果到缘由的争论）。或者，解释要依赖于可预料的未来行动（不需要神奇的联系）。为未来的交流作模型需要增加有限的维，就像在重复的囚徒困境一节中给定的。

[6] 2004年度囚徒困境锦标赛结果显示高波·拉姆琼的南安普敦大学策略位于前3名，尽管与GRIM策略相比，有较少的胜利和更多的失败。（注意，在囚徒困境锦标赛中，博弈的目标不是“赢得”比赛——通过经常背叛，这很容易就能达到。）同样需要指出的是，即使在软件策略（由南安普敦大学的小组开发）之间没有隐含结论，以牙还牙也不总是任何既定竞赛的绝对赢家。说得更确切些，它在一系列竞赛中的最终结果胜过它的对手。（在任何项目中，给定的策略能稍微比以牙还牙更适应竞赛，但是以牙还牙更稳固）。这同样适用于附加宽恕变量的以牙还牙和其他最佳策略：在任何一天，它们可能无法“赢得”一个对抗策略的特别组合。

[7] 这个争论——关于出于信任的合作的发展——出自《群众的智慧》，此书表明，长久的资本主义能够围绕教友派信徒的核心形成，这些教友派信徒们总是体面地同他们的生意合伙人交易（而不是背叛和食言——一种已经阻碍了早先的、非强制履行的长期境外合同的现象）。这表明，和可靠的商人作交易使合作拟子（meme）传播给其他交易者，这些交易者又把它传播到更远的地方，直到高水平的合作在一般商业活动中成为有利可图的策略。

[1] risoner's dilemma - 囚犯兩難. terms.naer.edu.tw. [2022-09-18]. （原始内容存档于2022-09-22）.

[4] 例如参见2003年特拉维夫大学的一项研究Bayesian Nash equilibrium; a statistical test of the hypothesis（贝叶斯-纳什均衡；假说的统计检验）：关于概念的讨论，和是否能运用于真实的经济或统计情形。

[5] 存档副本. [2013-07-16]. （原始内容存档于2007-07-15）.

[8] 道格拉斯·霍夫斯塔特. 元逻辑命题：追问思维和模式的本质. 班坦·戴尔出版集团. 1985. ISBN 0-465-04566-9. - 参阅第29章 囚徒困境计算机竞赛和合作的进化。

[1]

[註 1]

[註 2]

[2]

[3]

[註 3]

[註 4]

[4]