“一報還一報”是人與人博弈最好的策略

就如讀《三體》的時候那個三體游戲模擬的三體世界,那種美是這一整部小說最讓我癡迷的地方。昨天聽了卓老板聊科技的新推送:《合作與背叛的數(shù)學(xué)解釋》,里面用數(shù)學(xué)模型模擬生物博弈、囚徒困境的博弈也讓我如癡如醉,好像發(fā)現(xiàn)了某些事物背后的規(guī)律一樣欣喜若狂。


壹 生物種群中鷹派與鴿派的平衡

假設(shè)在兩只鳥盯上同一條蟲子的時候:有一種鳥每次遇到這種情況會采取攻擊的措施,死戰(zhàn)到底,那么這種鳥我們稱之為“鷹派”;對應(yīng)的,另外一類鳥會采取不動武,威嚇的措施,威嚇成功它獨占蟲子,威嚇失敗它就跑掉,這一類比較和平的鳥我們稱之為“鴿派”。

當(dāng)鴿派和鷹派遇到的時候,鴿派直接就逃跑了;兩只鴿派遇到一起的時候,互相就耗上了,誰會逃走的百分比大概是50%,剩下的那只鳥雖然贏得了蟲子,也耗費了時間精力;兩只鷹派遇到一起,不停地攻擊對方,直到有一方重傷倒下,爭搶就結(jié)束。為了做評估,假設(shè)獲得食物的一方得10分,重傷倒下的-20分,長期對峙耗費的時間代價-3分。所以上面所描述鷹派和鷹派遇到的時候,一方得10分,另一方得-20分,以此類推。

再假設(shè),有一種鳥,全部都屬于鷹派的,每一只鷹派的獲勝概率是50%的話,那么它們的平均收益是-5分。但是這個時候出現(xiàn)了一只鴿派的變異,鴿派的鳥每次都逃跑,所以每次都是0分,但是并未受傷。不管是什么鳥,每次享受資源的時候并不一定有人和它爭搶資源,所以在這種情況下,因為鴿派的得分比全是鷹的個體得分更高,所以鴿派會生存下來并繁殖,數(shù)量就會越來越多。

同樣,假設(shè)這一個種群全部都是鴿派,那么平均分?jǐn)?shù)是(10-6)/2=2分,而出現(xiàn)了一只鷹派的變異的時候,鷹派與鴿派的對峙每次都能獲勝,獲得10分,于是鷹派會活下來,并迅速擴(kuò)張。

那么這種擴(kuò)張會到什么程度呢?當(dāng)兩類鳥的收益得分想平等的時候,所占的比率就是一個穩(wěn)定的比率。上面的假設(shè)計算結(jié)果是鷹派占61.54%,鴿派占38.46%。

這就是種群的“存在穩(wěn)定性”。

當(dāng)然,放開你的想象,鴿派和鷹派,只是在遇到對峙的時候的一種簡單類型想象,也許可能還有鷹派和鴿派的混合,也許還有更多的生存策略,比如山羊派:如果對方不攻擊則不攻擊,對方攻擊則馬上采取攻擊,狐貍派:首先采取攻擊,當(dāng)對方也開始攻擊的時候立刻扭頭逃跑……多么有趣的生物博弈理論。

再放開一下你的想象,鷹派和鴿派,可能代表了蕓蕓眾生中的某兩種人,在這種資源博弈上,社會上同樣會有一定比例的鷹派、鴿派穩(wěn)定存在。而且,有粗心大意的人,就有小心謹(jǐn)慎的人,有熱情似火的人,就有冷漠如冰的人,當(dāng)然,也有大量的中間派別存在,可能在每次博弈中選擇不同的生存策略,但是無論如何,這些策略,都會按照一定的比例穩(wěn)定存在。

你不覺得用數(shù)學(xué)模擬自然規(guī)律,解釋種群問題很迷人嗎?



貳 “一報還一報”在囚徒困境中完勝


說完種群,來說個體吧。

什么是囚徒困境?

“囚徒困境”是1950年美國蘭德公司提出的博弈論模型。兩個共謀犯罪的人被關(guān)入監(jiān)獄,不能互相溝通情況。如果兩個人都不揭發(fā)對方,則由于證據(jù)不確定,每個人都坐牢一年;若一人揭發(fā),而另一人沉默,則揭發(fā)者因為立功而立即獲釋,沉默者因不合作而入獄5年;若互相揭發(fā),則因證據(jù)確實,二者都判刑3年。

釋放=5分;判刑1年=3分;判刑3年=1分;判刑5年=0分。

囚徒困境就是在信息不對稱的前提下,在人與人之間合作或者背叛的選擇,導(dǎo)致不同的生存結(jié)果。如果兩位囚徒選擇合作,在共同利益上來說是收益最高的。但是如果考慮進(jìn)個人利益,兩人真的能甘冒被判5年風(fēng)險信任彼此選擇合作嗎?

第1階段

美國密歇根大學(xué)政治學(xué)家羅伯特·阿克塞爾羅德,做了一個“重復(fù)囚徒實驗”。他邀請學(xué)生和各個領(lǐng)域精英人士設(shè)計了14種對策,每種都與其他對策及本身對戰(zhàn)200回,然后計算一輪200局平均成績和所有對戰(zhàn)的平均總成績。

結(jié)果出來了,平均分最差的是完全隨機(jī)對策,也就是無論對方如何選擇,每一局都隨機(jī)選擇合作或者背叛,276.3分。所以不考慮對手和環(huán)境的博弈實在不是最佳選擇。

其中有一種對策非常復(fù)雜,用了七十幾行C語言代碼才完成這個對策。但是如此復(fù)雜的對策,得分也非常低。屬于瞎琢磨。

得分最高的,是“一報還一報”策略,504.5分。也就是第一局采取合作的策略,此后每一局采取上一局對方的策略作為本局的策略,也就是“人不犯我,我不犯人,人若犯我,我必犯人”。甚至不需要保密,不害怕對方知道自己的策略,甚至希望對方知道。

第2階段

第1階段結(jié)果公布以后,阿克塞爾羅德廣泛征集策略,干掉“一報還一報”。重賞之下必有勇夫,一共提交了62種策略,大戰(zhàn)了一萬多個回合以后,“一報還一報”依然得分第一。

不過“一報還一報”也有得分低的時候,尤其是面對根本不管對方什么策略,自顧自地全背叛、全隨機(jī)的策略,“一報還一報”效果很不好。另外,在面對“一報還一報”的變種的時候,會發(fā)生回聲反應(yīng),大戰(zhàn)結(jié)束于無止盡的互相背叛中,所謂“冤冤相報何時了”。且“一報還兩報”的加倍報復(fù),更容易引發(fā)連環(huán)報復(fù),因此得分也更低。

第3階段

在這個階段中,阿克塞爾羅德把這六十多種策略放入自然選擇中,讓他們隨機(jī)相遇,每一輪按照得分來安排下一輪參與博弈的個體數(shù)量。也就是說,得分越低的,個體越來越少。

才進(jìn)行幾輪后,隨機(jī)選擇的策略就已經(jīng)消失(沒腦子就活不下去)。而最兇殘的總是選擇背叛的策略,也因為在遭遇高概率背叛的時候比分銳減,也很快消失了,就如那些交際圈中總是背叛別人的人,很快也會遭到排斥。而真正存活下來,占比越來越大的,就是“一報還一報”,及其各類變種,“善良而勇敢”、“善良而精明”、“善良聰明堅定”等策略都獲得了同樣的成功。


“一報還一報”為何會是最優(yōu)呢?

從我們所能理解的人際交往去考慮:

①善良:一開始采取合作的姿態(tài),與善良的對策相處得非常好。

②有原則:從不先背叛對方。

③寬容:對于背叛過自己的策略,只要對方選擇了合作,立刻原諒對方,采取寬容的合作對策。

④正義:對于背叛者堅決給與懲罰。

⑤適可而止:對于背叛者,只贏了一輪,不占對方便宜。有效止住了雙方慘敗的連環(huán)爆服。

⑥平衡:對與善良的高分者,不會因嫉妒而背叛對方。

⑦光明磊落:并不怕對方知道自己的策略,甚至假如對方知道自己的策略對雙方會是更好的結(jié)局。

對于這一演化博弈結(jié)果,生物學(xué)家道金斯(名著《自私基因》的作者)不無感慨地歸納道:即使有自私的基因掌權(quán)控制,好人仍能得到好報!

所以,這也解釋了在現(xiàn)實社會中,“一報還一報”其實是比較主流的博弈心理和價值觀。

今天碰巧簡書推送了一篇文章,標(biāo)題叫《我不恨你,但也不會原諒你》,人終究要學(xué)會往前看,但是也沒有必要裝圣賢,委屈自己去接納曾經(jīng)所有的傷害。一定的對抗,有時候是對自己的保護(hù)。



DAY 110

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

推薦閱讀更多精彩內(nèi)容

  • 做事的時候,我們總想找一個最優(yōu)的策略,避免走冤枉路嘛,也讓自己收益最大化。但是最優(yōu)策略真的存在嗎?存在的話又跟什么...
    深夜筆廚閱讀 860評論 0 0
  • 1. 緒言 如果你正獨自開車送別人的1千萬美金去某地點,酬勞是1千美金,你內(nèi)心里會不會想從此人間蒸發(fā),然后在某個無...
    諸葛_吳用閱讀 4,655評論 0 5
  • 有一個人他生來從未快樂過。 并不是說他智力上或者精神上有不健全的殘缺,只是他生而為人以來從未體驗過快樂這一種情緒,...
    子水景夜閱讀 173評論 0 0
  • 1.思路:捕捉繪圖操作。iOS的繪圖操作是在UIView類的drawRect方法中完成的,所以如果我們要想在一個U...
    希達(dá)like閱讀 841評論 0 0
  • 很小的時候就聽過這個故事:“美國福特公司一臺大型發(fā)電機(jī)出了故障,工程師們會診了三個月,沒有結(jié)果,最后請專家斯坦梅茨...
    偉嘉豪閱讀 387評論 0 1