博弈論中有這樣一個故事,兩個人同時碰到了一只非常兇悍的獅子(即兩人就算聯(lián)手也無法戰(zhàn)勝這只獅子),其中一人撒腿就跑。沒跑的那個人奇怪的問跑的人,“你跑的再快能快過獅子嗎?”。而跑的人回答說:“我沒必要跑贏獅子呀,只要跑的比你快就行了”。這個故事說明了一個問題,就是要認清你的對手到底是誰。而這次談論的囚徒困境則是雙方互猜對方(可以是敵人或者是盟友)心理的博弈。
“囚徒困境”是1950年美國蘭德公司的梅里爾·弗勒德(Merrill Flood)和梅爾文·德雷希爾(Melvin Dresher)擬定出相關困境的理論,后來由顧問艾伯特·塔克(Albert Tucker)以囚徒方式闡述,并命名為“囚徒困境”。兩個共謀犯罪的人被關入監(jiān)獄,不能互相溝通情況。如果兩個人都不揭發(fā)對方,則由于證據不確定,每個人都坐牢一年;若一人揭發(fā),而另一人沉默,則揭發(fā)者因為立功而立即獲釋,沉默者因不合作而入獄十年;若互相揭發(fā),則因證據確實,二者都判刑八年。由于囚徒無法信任對方,因此傾向于互相揭發(fā),而不是同守沉默。最終導致納什均衡僅落在非合作點上的博弈模型。【1】
囚徒困境(prisoner's dilemma):兩個被捕的囚徒之間的一種特殊博弈,說明為什么甚至在合作對雙方都有利時,保持合作也是困難的。囚徒困境是博弈論的非零和博弈中具代表性的例子,反映個人最佳選擇并非團體最佳選擇。雖然困境本身只屬模型性質,但現(xiàn)實中的價格競爭、環(huán)境保護等方面,也會頻繁出現(xiàn)類似情況。【1】
看完這個問題后,很多人的第一反應肯定是互不揭發(fā),原因很簡單嘛,都只用坐一年牢,你好我好大家好。但是仔細想想,這里面的問題很有意思,兩人隔離在不同的牢房,沒辦法信息交流,說白了對方的選擇你只能猜測。再說的直接一點,在我看來其實對方做的選擇,你可以直接看成一個既定事實,這就造成兩種結果:
1.對方心地善良并且相信你,他不揭發(fā)你。倘若你揭發(fā)他,你免受牢獄之災;不揭發(fā)他,你坐牢1年。
2.對方心狠手辣并且不相信你,接發(fā)了你。倘若你揭發(fā)他,你坐牢8年;不揭發(fā)他,你坐牢10年。
顯然在兩種情況下,揭發(fā)都是最好的選擇。但這個帕累托改進(如果一個經濟體不是帕累托最優(yōu),則存在一些人在不使其他人的境況變壞的情況下而使自己的境況變好的情形。普遍認為這樣低效的產出的情況是需要避免的,因此帕累托最優(yōu)是評價一個經濟體和政治方針的非常重要的標準。)辦不到,因為它不能滿足人類的理性要求。囚徒困境所反映出的深刻問題是,人類的個人理性有時能導致集體的非理性——聰明的人類會因自己的聰明而作繭自縛。(這里如同博弈論的其他例證,囚徒困境假定每個參與者(即“囚徒”)都是利己的,即都尋求最大自身利益,而不關心另一參與者的利益,這也就是經典經濟學中的“理性人假設”。參與者某一策略所得利益,如果在任何情況下都比其他策略要低的話,此策略稱為“嚴格劣勢”,理性的參與者絕不會選擇。另外,沒有任何其他力量干預個人決策,參與者可完全按照自己意愿選擇策略。)。
可見在一次囚徒問題中,毫無疑問,出現(xiàn)互相舉報的幾率是最大的,對個人來說,舉報其實也是最好的選擇,但其實最后得到的結果卻對任何人來說都不是最佳結果。這是一個很骨感,很現(xiàn)實的事情,如果喜歡思考的人可能已經開始想了,如果是多次囚徒問題呢?
多次囚徒問題也分為兩種,一是確定次數(即次數n為一確定常數),這時我覺得用囚徒模型有點怪異。用一個相關模型來解釋較為合理(霍夫施塔特曾提出的“封閉袋子交易”),
兩人面對面互相交換封閉的袋子,共同了解其中一方放錢,另一方放商品。雙方可以誠實的依照承諾,把東西放到袋子里交換;又或者交空袋子給對方,選擇背叛。這里我們最好的辦法是反推,選擇最后一次,可想而知大家如果到了最后一回合,肯定雙方都會選擇交空袋子。于是在此之前的一個回合,雙方會推測下一次對方肯定會交空袋子,于是自己會提前交空袋子,依次類推。最后到第一回合,其實跟只進行一次的結果相同。
第二種,不確定n的具體次數。
羅伯特·阿克塞爾羅德在其著作《合作的進化》中,探索了經典囚徒困境情景的一個擴展,并把它稱作“重復的囚徒困境”(IPD)。在這個博弈中,參與者必須反復地選擇他們彼此相關的策略,并且記住他們以前的對抗。阿克塞爾羅德邀請全世界的學術同行來設計計算機策略,并在一個重復囚徒困境競賽中互相競爭。
阿克塞爾羅德發(fā)現(xiàn),當這些對抗被每個選擇不同策略的參與者一再重復了很長時間之后,從利己的角度來判斷,最終“貪婪”策略趨向于減少,而比較“利他”策略更多地被采用。他用這個博弈來說明,通過自然選擇,一種利他行為的機制可能從最初純粹的自私機制進化而來。
最佳確定性策略被認為是“以牙還牙”,這是阿納托爾·拉波波特(Anatol Rapoport)開發(fā)并運用到錦標賽中的方法。它是所有參賽程序中最簡單的,只包含了四行BASIC語言,并且贏得了比賽。這個策略只不過是在重復博弈的開頭合作,然后,采取你的對手前一回合的策略。更好些的策略是“寬恕地以牙還牙”。當你的對手背叛,在下一回合中你無論如何要以小概率(大約是1%~5%)時而合作一下。這是考慮到偶爾要從循環(huán)背叛的受騙中復原。當錯誤傳達被引入博弈時,“寬恕地以牙還牙”是最佳的。這意味著有時你的動作被錯誤地傳達給你的對手:你合作但是你的對手聽說你背叛了。【1】
通過分析高分策略,阿克塞爾羅德指定了策略獲得成功的幾個必要條件。
友善
最重要的條件是策略必須“友善”,這就是說,不要在對手背叛之前先背叛。幾乎所有的高分策略都是友善的。因此,完全自私的策略僅僅出于自私的原因,也永遠不會首先打擊其對手。
報復
但是,成功的策略必須不是一個盲目樂觀的,要適時報復。一個非報復策略的例子是始終合作。這是一個非常糟糕的選擇,因為始終選擇不合作的策略將殘酷地剝削這樣的傻瓜。
寬恕
成功策略的另一個品質是必須要寬恕。如果對手不繼續(xù)背叛,它們會一再退卻到合作。這停止了報復和反報復的長期進行以導致的得分低的問題。
不嫉妒
最后一個品質是不嫉妒,就是說不去爭取得到高于對手的分數(“友善”的策略必然不嫉妒,也就是說“友善”的策略永遠無法得到高于對手的分數)。
因此,阿克塞爾羅德認為自私的個人為了其自私的利益會趨向友善、寬恕和不嫉妒。阿克塞爾羅德關于重復囚徒困境的研究的重要結論之一,是友善的家伙能先完成交易。
我們據此,來分析一些商業(yè)上的案例。
1.兩個壟斷公司的廣告競爭(我覺得這里得主要強調兩個和壟斷)
兩個公司各分行業(yè)的半壁江山,而為了讓自己的產品更具影響力。兩家公司不斷在廣告上下功夫,以增強自己的影響力。眾所周知,廣告上的投資通常消耗很大,而兩公司為了競爭更是花大價錢去提高廣告質量。這時有兩種選擇:
(1)合作,達成協(xié)議一起減少廣告上的投資
(2)背叛,設法通過廣告質量來壓垮對手,去增加廣告投入
若兩個公司互相不信任對方,無法合作,二公司將陷入廣告戰(zhàn),而廣告成本的增加其實使兩個公司利益都受到了損害,這就是陷入囚徒困境。在現(xiàn)實中,要兩個互相競爭的公司達成合作協(xié)議是較為困難的,多數都會陷入囚徒困境中。
其實這其中還涉及到“斯塔克伯格模型”問題,在雙寡頭廠商的競爭中,兩個廠商并不總是同時做出它們的產量決策的,斯塔克伯格研究了兩廠商之一如果先決定自己的產量,然后是另一個廠商看到對方的產量后才做出它的產量決策的情況。他的研究結果表明,首先行動的廠商會獲得一種利益。理由就是先宣布就造成了一種既成事實——不管你的競爭者怎么做,你的產量都是大的。為了使利潤最大化,你的競爭者就必須將你的高產量水平作為給定的,并為它自己定一個低產量水平。如果你的競爭者生產一個大的產量水平,這就會將價格壓低,你們雙方都會虧損。所以除非你的競爭者把“爭取平等”看得比賺錢還重要,否則他生產一個大的數量是不合乎理性的。這其中其實也極容易產生囚徒問題。
2.公共用品問題
比如捕魚,每個漁民心里都想著如果我不捕撈,其他的漁民也一定會捕撈,此時就非常容易產生過度捕撈,而造成海洋生態(tài)環(huán)境的破壞,導致漁民自己的收益下降(共同背叛的結果)。
其實上述的兩個例子,在長期下都可能有一天會轉向合作,這其中可能會有雙方協(xié)調或者像政府干預等來打破這種囚徒問題。這之間的聰明人和愚蠢者很難判斷,很大程度上取決于對方,或者說取決于信任。博弈全輸,合作雙贏,懷疑或不信任導致失敗。
真正的聰明人可能是那些能相互拿出信任籌碼者吧。