在知乎的納什均衡回答里看到這么一個觀點:
1. 三個火槍手中那句名言:All for one, one for all (人人為我,我為人人),我的理解是,貴族武士之間,通過自利和利他的行為實現共同目的
2. 亞當斯密提出invisible hand理論時候的基本前提:當市場中每個人都進行自利行為的時候,在客觀上說,市場(或社會)整體的福利會被提升
而納什均衡恰好否定了前面的觀點,我認為這也是這一理論如此著名的原因:
當市場中每個人都進行自利行為的時候,在客觀上說,市場(或社會)整體的福利是無法達到最優的。
納什均衡(Nash equilibrium),無一參與者可以通過獨自行動而增加收益的策略組合。
其經典的例子就是囚徒困境(Prisoner's Dilemma)。囚徒困境是一個非零和博弈,反映個人最佳選擇并非團體最佳選擇。或者說在一個群體中,個人做出理性選擇卻往往導致集體的非理性。大意是:一個案子的兩個嫌疑犯被分開審訊,警官分別告訴兩個囚犯,如果你招供,而對方不招供,則你將被立即釋放,而對方將被判刑十年;如果兩人均招供,將均被判刑兩年。如果兩人均不招供,將最有利,只被判刑半年。于是,兩人同時陷入招供還是不招供的兩難處境。但兩人無法溝通,于是從各自的利益角度出發,都依據各自的理性而選擇了招供,這種情況就稱為納什均衡。這時,個體的理性利益選擇是與整體的理性利益選擇不一致的。
基于經濟學中“理性經濟人”的前提假設,兩個囚犯符合自己利益的選擇是坦白招供,原本對雙方都有利的策略不招供從而均被判刑半年就不會出現。事實上,這樣兩人都選擇坦白的策略以及因此被判兩年的結局被稱作是“納什均衡”(也叫非合作均衡),換言之,在此情況下,無一參與者可以“獨自行動”(即單方面改變決定)而增加收獲。
目前經濟學家們現在所談的博弈論一般是指非合作博弈,由于合作博弈論比非合作博弈論復雜,。非合作博弈又分為:完全信息靜態博弈,完全信息動態博弈,不完全信息靜態博弈,不完全信息動態博弈。與上述四種博弈相對應的均衡概念為:納什均衡、子博弈精煉納什均衡(subgame perfect Nash equilibrium)、貝葉斯納什均衡、精煉貝葉斯納什均衡(perfect Bayesian Nash equilibrium)。
Nash equilibrium 和 Subgame perfect equilibruim區別
Nash equilibrium 包含Subgame perfect equilibruim,子博弈完備均衡一定是納什均衡,但有一些納什均衡不一定是子博弈完備均衡;其次,子博弈是基于動態博弈定義的均衡(當然納什均衡也可以用于動態),一個子博弈完備均衡,在它的任何子博弈上也構成納什均衡(這是對納什均衡精練的一個條件),如果一個納什均衡在其子博弈上不再是納什均衡,那就不是子博弈完備的(所謂在子博弈上的策略組合,就是原博弈的一個策略組合留存在子博弈上的策略組合)。
從行為的時間序列性,博弈論進一步分為兩類:
靜態博弈:在博弈中,參與人同時選擇;
動態博弈(Sequential game):也叫序貫博弈,在博弈中,參與人的行動有先后順序,且后行動者能夠觀察到先行動者所選擇的行動。常用逆向歸納法(Backward Induction)求解。
通俗的理解:“囚徒困境”就是同時決策的,屬于靜態博弈;而象棋、國際象棋、圍棋等棋牌類游戲決策或行動有先后次序的,屬于動態博弈。
囚徒困境的主旨為,囚徒們彼此合作,堅不吐實,可為全體帶來最佳利益(無罪開釋),但在無法溝通的情況下,因為出賣同伙可為自己帶來利益(縮短刑期),也因為同伙把自己招出來可為他帶來利益,因此彼此出賣雖違反最佳共同利益,反而是自己最大利益所在。
單次發生的囚徒困境,和多次重復的囚徒困境結果不會一樣。
在重復的囚徒困境中,博弈被反復地進行。因而每個參與者都有機會去“懲罰”另一個參與者前一回合的不合作行為。這時,合作可能會作為均衡的結果出現。欺騙的動機這時可能被受到懲罰的威脅所克服,從而可能導向一個較好的、合作的結果。作為反復接近無限的數量,納什均衡趨向于帕雷托最優。帕累托最優可以是合作博弈,而納什均衡只能是非合作博弈。
帕雷托最優(Pareto optimality),也稱為帕雷托效率(Pareto efficiency),是指資源分配的一種理想狀態。給定固有的一群人和可分配的資源,如果從一種分配狀態到另一種狀態的變化中,在沒有使任何人境況變壞的前提下,使得至少一個人變得更好,這就是帕雷托改善。帕雷托最優的狀態就是不可能再有更多的帕雷托改善的狀態;換句話說,不可能再改善某些人的境況,而不使任何其他人受損。
需要指出的是,帕雷托最優只是各種理想態標準中的“最低標準”。也就是說,一種狀態如果尚未達到帕雷托最優,那么它一定是不理想的,因為還存在改進的余地,可以在不損害任何人的前提下使某一些人的福利得到提高。但是一種達到了帕雷托最優的狀態并不一定真的很“理想”。比如說,假設一個社會里只有一個百萬富翁和一個快餓死的乞丐,如果這個百萬富翁拿出自己財富的萬分之一,就可以使后者免于死亡。但是因為這樣無償的財富轉移損害了富翁的福利(假設這個乞丐沒有什么可以用于回報富翁的資源或服務),所以進行這種財富轉移并不是帕雷托改進,而這個只有一個百萬富翁和一個餓死乞丐的社會可以被認為是帕雷托最優的。(這里可以與古典功利主義的標準做一比較。按功利主義的標準,理想的狀態是使人們的福利的總和最大化的狀態。如果一個富翁損失很少的福利,卻能夠極大地增加乞丐的福利,使其免于死亡,那么社會的福利總和就增加了,所以從功利主義的角度看,這樣的財富轉移是一種改善,而最初的極端不平等狀態則是不理想的,因為它的福利總和較低。可以看到,帕雷托改進要求在提高某些人福利的時候不能減少任何一個人的福利,而功利主義則允許為了提高福利總和而減少一些人的福利。)
經濟學理論認為,如果市場是完備的和充分競爭的,市場交換的結果一定是帕雷托最優的,并且會同時滿足以下3個條件:
交換最優:即使再交易,個人也不能從中得到更大的利益。此時對任意兩個消費者,任意兩種商品的邊際替代率是相同的,且兩個消費者的效用同時得到最大化。
生產最優:這個經濟體必須在自己的生產可能性邊界上。此時對任意兩個生產不同產品的生產者,需要投入的兩種生產要素的邊際技術替代率(MRTS)是相同的,且兩個生產者的產量同時得到最大化。
產品混合最優:經濟體產出產品的組合必須反映消費者的偏好。此時任意兩種商品之間的邊際替代率必須與任何生產者在這兩種商品之間的邊際產品轉換率(MRT)相同。
如果一個經濟體不是帕雷托最優,則存在一些人可以在不使其他人的境況變壞的情況下使自己的境況變好的情形。普遍認為這樣低效的產出的情況是需要避免的,因此帕雷托最優是評價一個經濟體和政治方針的非常重要的標準。
但是,如同上面指出的,一個帕雷托最優的經濟系統只是在“最低”的意義上是“理想”的,并不能保證其中沒有貧困或嚴重的貧富差距。
回到最開始的囚徒困境,這場博弈的納什均衡,顯然不是顧及團體利益的帕累托最優解決方案。以全體利益而言,如果兩個參與者都合作保持沉默,兩人都只會被判刑半年,總體利益更高,結果也比兩人背叛對方、判刑5年的情況較佳。但根據以上假設,二人均為理性的個人,且只追求自己個人利益。均衡狀況會是兩個囚徒都選擇背叛,結果二人判監均比合作為高,總體利益較合作為低。這就是“困境”所在。例子有效地證明了:非零和博弈中,帕累托最優和納什均衡是互相沖突的。
現實中,無論是人類社會或大自然都可以找到類似囚徒困境的例子:
政治學例子:軍備競賽
在政治學中,兩國之間的軍備競賽可以用囚徒困境來描述。兩國都可以聲稱有兩種選擇:增加軍備(背叛)、或是達成削減武器協議(合作)。兩國都無法肯定對方會遵守協議,因此兩國最終會傾向增加軍備。似乎自相矛盾的是,雖然增加軍備會是兩國的“理性”行為,但結果卻顯得“非理性”(例如會對經濟造成損壞等)。這可視作遏制理論的推論,就是以強大的軍事力量來遏制對方的進攻,以達到和平。
經濟學例子:關稅戰
兩個國家,在關稅上可以有以兩個選擇:
提高關稅,以保護自己的商品。(背叛)
與對方達成關稅協定,降低關稅以利各自商品流通。(合作)
當一國因某些因素不遵守關稅協定,而獨自提高關稅(背叛)時,另一國也會作出同樣反應(亦背叛),這就引發了關稅戰,兩國的商品失去了對方的市場,對本身經濟也造成損害(共同背叛的結果)。然后二國又重新達成關稅協定。(重復博弈的結果是將發現共同合作利益最大。)
商業例子:廣告戰
商業活動中亦會出現各種囚徒困境例子。以廣告競爭為例。
兩個公司互相競爭,二公司的廣告互相影響,即一公司的廣告較被顧客接受則會奪取對方的部分收入。但若二者同時期發出質量類似的廣告,收入增加很少但成本增加。但若不提高廣告質量,生意又會被對方奪走。
此二公司可以有二選擇:
互相達成協議,減少廣告的開支。(合作)
增加廣告開支,設法提升廣告的質量,壓倒對方。(背叛)
若二公司不信任對方,無法合作,背叛成為支配性策略時,二公司將陷入廣告戰,而廣告成本的增加損害了二公司的收益,這就是陷入囚徒困境。在現實中,要二互相競爭的公司達成合作協議是較為困難的,多數都會陷入囚徒困境中。
納什均衡:這是一個第一人稱視角的狀態。在這種狀態下,首先分析我自己。因為無論使用什么策略我都不能使自己的效用更高,所以我不在意我使用各種策略時對別人的影響。因為我已經達到了我的最優,我也無意去傷害別人。如果每個人都達到了和我一樣的狀態,那么這種狀態就叫納什均衡。
帕累托最優: 這是一個第三人稱視角(上帝視角)的狀態。假設我是上帝,我有能力讓游戲里每個玩家都聽從我的安排去選擇策略。我的任務是使得每個玩家個人效用在給定條件下達到最大化,于是在我給每個人安排策略的過程中,免不了會出現一種狀態,這種狀態即是如果我想讓一個人效用更加大一些,那么至少另外一個人的效用會降低。在我不同的策略安排下,會存在不同的帕累托最優狀態。對于每個玩家來說,他沒法去反抗我的安排,但他可能會有去傷害別人來提高自己效用的動機。
什么,還是聽不懂?用通俗的語言來解釋一下,納什均衡是普通人生活的和諧社會,帕累托最優則是上帝構建的伊甸園。生活在納什均衡里的人的都是“性善者”。而生活在帕累托最優里的都是“有反抗動機的服從者”。