囚徒困境作為最知名的賽局理論例子之一,他確實是非常有價值的理論,可以很簡單的把賽局理論的基本理念講述清楚。

起源
1950年,由就職於蘭德公司的梅里爾·弗勒德(MerrillFlood)和梅爾文·德雷希爾(MelvinDresher)擬定出相關困境的理論,後來由顧問艾伯特·塔克(AlbertTucker)以囚徒方式闡述,並命名為“囚徒困境”。經典的囚徒困境如下:
警方逮捕甲、乙兩名嫌疑犯,但沒有足夠證據指控二人入罪。於是警方分開囚禁嫌疑犯,分別和二人見面,並向雙方提供以下相同的選擇:
若一人認罪並作證檢控對方(“背叛”對方),而對方保持沉默,此人將即時獲釋,沉默者將判監10年。
若二人都保持沉默(互相“合作”),則二人同樣判監1年。
若二人都互相檢舉(相關術語稱互相“背叛”),則二人同樣判監5年。
甲 乙 | 認罪 | 不認罪 |
認罪 | (5,5) | (1,0) |
不認罪 | (10,0) | (1,1) |
在這種情況下大部分的情況會是雙方都認罪,你們會說都不認罪的話刑期最少,為甚麼要都認罪呢?
嚴格劣勢策略
儘管雙方均保持沉默能使刑期最短,但在多數情況下,甲與乙都會選擇「認罪」,即相互檢舉。這是因為,在無法溝通的情況下,最理性的選擇是確保自身利益最大化:若選擇認罪,最理想的情況是直接獲釋,即便最壞的情況也只是被判5年。這樣的選擇是一種「嚴格劣勢策略」,即在無法信任的環境中,保證個人利益優於集體最優解的策略。
帕累托最優(Pareto Optimality)
帕累托最優是指在群體中不損害任何一人利益的情況下,使資源分配達到最佳。
信任的重要
如果你無法溝通且信任對方,那保證自己利益的嚴格劣勢策略就會比帕累托最優還要常發生。

囚徒困境的變化
重複賽局
只要把單次的囚徒困境變為多次,可以合理地構想,如果囚徒第一次被對方指控,第二次這個囚徒也會指控對方。相反,如果第一次別人保持沉默,建立了互信的關係,你也會保持沉默,就會導致帕累托最優。
但是如果在多次裡增加了一個上限,像是10次。
可能第二次、第三次建立了互信的關係,因此在前九局,大家都維持一樣的情況,但在第十次,可能就會有人動了歪腦筋,畢竟前面九局會預設對方跟自己建立了互信關係,那第十局對方也可能會沉沒,那只要這時背判對方,那自己就能無罪釋放。而只要一陷入這種思維,那就等於前面九次都沒有意義,還是會陷入互相猜疑的輪迴之中。
拓展理論:利他策略的演化
在這種博弈中,參與者不斷選擇互相關聯的策略,當選擇重複進行到一定程度後,「貪婪」的策略會減少,而「利他」策略則逐漸增多。這一現象顯示了在自然選擇中,利他行為機制可以從原始的自私行為中演化而來。