一個有趣的游戲

有一個小游戲,游戲規則:

兩組分別代表兩家公司。需要選出一位組長,他就是最終下決策的CEO;

游戲共有10輪,每一輪,兩家公司分別選擇「偷襲」或是「合作」。

如果都選擇偷襲,則都不得分;如果都選擇合作,則都得2分;如果一家選擇偷襲,另一家選擇合作,前者得3分,后者得-1分;

勝利條件:最終得分比對方高,且不低于8分;

游戲過程中雙方不得溝通,但有3次談判的機會,可以各派出一個人去談判。

好了,你可以思考一下:如果是你玩這個游戲,在這10輪之中,你會采用什么樣的策略?

學過博弈論的朋友,應該一眼就能看出來,這是一個「囚徒困境」的升級版。

什么是囚徒困境?

假設有兩個犯了案的囚徒,被警方單獨審問,警方開出的條件是:

指認對方。那么對方將判刑5年;

沉默。那么對方將無罪釋放;

但如果自己沉默的同時,對方指認自己,那么對方將無罪釋放,而自己將判刑10年,作為包庇的懲罰。

可以看到,對兩位囚徒而言,最好的做法是都沉默,這樣雙方都能無罪釋放。但是,如果遭到對方的背叛,自己就將面臨10年刑罰;反過來,如果選擇指認,運氣好的話可以無罪釋放,運氣差的話,也不過是5年而已。

所以,盡管存在最好的情況(都沉默),但兩位囚徒最終一定會選擇互相指認對方,從而都判刑5年。

這里,囚徒們作出的決策,就是鼎鼎大名的納什均衡。

它闡述了這一點:在信息沒有充分溝通的情況下,雙方都從自己角度出發,選擇自己的優勢策略(在實例中,就是「指認對方」),反而會得到一個「不好」的結果。

這是一個很違反直覺,但在生活中普遍存在的現象。

最常見的例子,就是廣告戰。

市場上,企業面臨著「打廣告」和「不打廣告」兩種策略。最好的策略,當然是大家都不打廣告,好好做產品。這樣,可以節省大量的廣告開支。但是,如果自己不打廣告,別人打了,自己就會蒙受損失;同樣,別人不打廣告,自己打,就能獲利。

所以,最終的情況,一定會演變成「所有企業都在打廣告」。效果得不到提升,還白白投入了大量開支。

回到囚徒困境。這里面的關鍵是什么呢?是猜疑鏈的存在。

第一,囚徒與囚徒之間難以溝通,「我們一起選擇沉默吧,這樣大家都可以無罪釋放」這個想法,無法傳遞給對方。

第二,即使雙方建立共識,也無法保證對方是否會背叛自己。畢竟,對于對方來說,選擇「背叛」,風險永遠是比「合作」更低的。

這是一個關乎人性和信任互利的決策。

回到最開始的游戲。

這個游戲跟囚徒困境有什么差異呢?很顯然,是兩點:

第一,這個游戲有十輪。也就是說,「無法溝通」這一點被打破了。雙方完全可以在前幾輪的較量中,用自己的決策來傳遞信息,進而影響對方的決策。

第二,這個游戲有下限條件。這非常符合實際:如果一個市場里,所有企業都在互相攻訐,忽視了對市場的占領,最后的結果就是兩敗俱傷。

如果沒有下限,顯然,最好的策略就是十輪都選擇「偷襲」,這樣自己一定不會輸。只要對方選擇了一次「合作」,自己就贏了。

但是存在下限,就給合作和信任留下了空間。

顯然,一味「偷襲」,是絕對到不了8分的 —— 除非對方連續3次犯暈,選擇「合作」。在這里,「活下去」就變成比「打敗對手」更重要的事情。

如何確保自己能拿到8分?

先互相攻擊,再合作,還是先合作,再對決?

是追求雙贏,大家都拿8分,還是伺機給對面致命一擊?

如果自己處于劣勢,是委曲求全,還是兩敗俱傷?

如何利用好3輪溝通的機會?

是麻痹對面,還是釋放善意、尋求共同發展?

這些,都是需要嚴肅討論的問題。

不妨可以想想,如果是你,你會作出什么樣的選擇?你會如何說服其他人,支持你的決策?

講一下我們玩的進度吧。

一開始,我們打算釋放善意,未料對方以偷襲回敬,于是開局落后。幾輪后,對方發現這樣永遠拿不到8分,于是開始試探著想要合作。幾輪下來,我們反而扳回了優勢。

后來,利用溝通機會,在我和對面組長的促成下,雙方簽訂了協議,約定共同合作。

到了最后一輪,組里分化成了兩派。一派表示,對方一定會選擇偷襲,所以這一輪我們撕毀協議,也選擇偷襲,這樣大家都不得分;但另外一派堅決認為,既然已經簽訂了協議,就要遵守協議精神,反正就算我們落敗,也拿到了8分,已經有了最基本的保障。

最后的結果是什么呢?其實也不重要了。整個游戲的過程,揣摩,分析,決策,說服,談判,才是最有意思的。

為什么講這個故事呢?是因為,前幾天看到一個網站,叫做 The Evolution of Trust,用互動游戲的形式,探討了這個問題。

它構造的博弈是一樣的:

每一輪,你可以選擇欺騙或是合作。選擇前者,你沒有損失;選擇后者,你損失1枚金幣,對方得到3枚金幣。

如果雙方都選擇合作,則各自凈獲得2枚金幣;都選擇欺騙,則沒有損失也沒有獲利;一人選擇欺騙,另一人選擇合作,前者獲得3枚金幣,后者損失1枚金幣。

你會如何作出決定呢?

在這里,我們把作出決定的方式,叫做「策略」。

例如,有人可能會想「不管對方怎么做,我每一輪都要欺騙」;也有人可能會覺得「我堅信合作互惠是對的,我每一輪都要選擇合作」。這就是兩種策略:前者永遠欺騙,后者永遠合作。

如果把不同的策略放到一起混戰,在經歷足夠長的時間之后,什么樣的策略會取得優勝?

這個網站假定了這么幾種策略:

1)狐貍:無論對方選什么,永遠選擇欺騙;

2)兔子:無論對方選什么,永遠選擇合作;

3)貓:第一輪選擇合作,后面每一輪,都模仿對方上一輪的選擇;

4)獵人:選擇合作,直到對方出現第一次欺騙,從此以后,每一輪都選擇欺騙;

5)偵探:前四次按照合作、欺騙、合作、合作的順序。如果這四次里面,對方出現了一次欺騙,從第五次起,就按照貓的策略操作;如果對方一次欺騙都沒有(大概率是兔子),就按狐貍的策略操作;簡而言之,就是欺軟怕硬。

它的規則是這樣的:

假定有100個人玩這個游戲,把這5種策略,隨機分配給100個人,每人使用一種策略;

所有人的初始狀態是0枚金幣;

游戲從1號開始。任意兩個人之間,都玩10局游戲(1-2,1-3,1-4……1-100,2-3,2-4……2-100,以此類推),記下最終每個人的金幣數量。

所有人都玩過一遍之后,找出金幣最少的5個人(超過5個則隨機挑出5個),把他們剔除出游戲,剩下95個人;

找出金幣最多的5個人(超過5個則隨機挑出5個),復制他們的策略,新增5個人,補足100個;

重復步驟3-5。

好了,如果上面的敘述比較模糊,可以多看幾遍。

在這樣的規則下,猜一猜,哪種策略最終存活下來的人數最多?

狐貍,兔子,貓,獵人,還是偵探?

作出自己的猜測后,再往下看。

想好了嗎?我要公布答案了。

答案蠻有意思。

如果任意兩個人之間,游戲局數較少(比如2局、5局),最終獲勝的將會是狐貍。

但如果游戲局數較多(10局、20局),最終將會是貓統治全世界。

為什么呢?

原因很簡單。狐貍是一個低風險低收益的策略,它可以保證不敗,但難以保證獲利。而對于貓來說,如果局數較多,就給合作互惠留下了更大的空間 —— 只要多遇到幾次愿意合作的人,雙方就都能「憑空」得到更多的金幣。

具體的模擬過程,可以點擊「閱讀原文」,體驗一下。

后面還給出了一些其他推論,比如「游戲過程中出現意外,怎么辦」「是否把對方的欺騙當成意外來寬恕」等等,也很有意思。

實際上,這個游戲和結論,是美國政治學家阿克塞爾羅德,在其著作《合作的進化》中提出的。

他組織了一場競賽,邀請一批科學家,設計了14個程序。每個程序使用一種策略,與其他程序各進行200次對局,循環5次。最終,一共進行了12萬次對局。

最終獲勝的策略是什么呢?就是貓。更廣為人知的名字是「Tit for tat」,以牙還牙。

根據競賽結果,大多數程序的得分在200-600之間,而以牙還牙的平均得分是504。也就是說,這個策略的結果,十分接近「永遠合作」了。

這可以給我們許多啟示。

《合作的進化》提到過一個案例:一戰期間,英德雙方對峙,但在最前線的一些戰區,卻出現了雙方軍人和平相待,擅自「休戰」的行為。

書里寫道:

每到天黑之后,軍需官帶著食品上來了,食品擺開后由從前線下來的小組取走。我想敵人大概也是這么做的。這樣的事悄悄地做了幾天之后,這些取食品的小組變得不在乎了,在回去的路上還有說有笑的。

到了圣誕節,引起司令部不滿的友善行為更加擴大了。在之后的幾個月,不時有人用叫喊或信號來安排直接休戰。一個目擊者這樣寫道:

在一個防區中早上8點到9點被認為是神圣不可侵犯的「個人時間」。一些插上旗作為標志的地方,被認為是雙方狙擊手不能打擾的范圍。

這種現象之所以發生,是因為雙方都知道這幾點:

如果雙方都開火,結果就是兩敗俱傷;

如果雙方都不開火,大家都可以活下來;

如果一方率先開火,可能會遭受對方更猛烈的報復。

在這種「基于回報的策略」影響下,甚至發生了這樣的情況:

突然一陣炮火打來,但沒有造成傷亡。這時雙方跳下土墻,我們的士兵開始罵德國人。這時立即有一個大膽的德國人跳上土墻,大聲喊道:我們很抱歉,但愿沒有人受傷,這不是我們的錯,這是該死的普魯士炮兵干的。

這說明什么呢?

在特定的情況下,只要雙方擁有一致共識,并且基于足夠長的時間,信任和互惠甚至可以在敵人之間產生。

那么,如何才能產生信任呢?

或者說,在前述的游戲里面,要想最終存活下來,需要滿足什么條件呢?

簡單來說,就是「以牙還牙」 —— 這就是最基本的原則。

它包含這么四點:

1. 釋放善意

競賽結果揭示了這么一種現象:所有得到高分的策略,都有一個共性 —— 它們都是善良的。

亦即,它們總是以「合作」開始,并且永遠不會首先背叛對方。

道理很簡單:背叛只能保證短期獲利,一旦遭遇報復,雙方就將兩敗俱傷。而一開始釋放善意,遇到同類的幾率更高,與對方建立信任互惠合作關系的可能性也就更高。

另一點是,彼此友善的個體之間,能夠結成一個緊密的群體,雙方都從這個群體中得益。由于這個群體是穩定的,故而也是難以被入侵和破壞的。

2. 給予反饋

釋放善意,并不意味著愚蠢。如果你的善意遭遇背叛,理性的方式是給予警告,而不是一味退讓。

「以牙還牙」的策略優異在哪里呢?它能夠用一種最簡單的方式,辨別其他人中,哪些是有可能合作的,哪些是無法合作的,并且選擇跟前者建立聯系,跟后者進行對抗。

一方面,它能夠用更高的收益瓦解「背叛者」的群體;另一方面,當它受到外來的攻擊時,也能夠以正面回擊的姿態保護自己。

3. 坦誠相待

跟很多人的想法相反,在這場競賽中,算計越多的程序 —— 試圖誘導對方相信自己、試圖欺騙對方等,得到的往往是低分。

這是因為,這樣思考的人,很容易犯一個錯誤:對方并不愚蠢,不會任由你欺負。當你設下陷阱欺騙對方時,也許對方看不透你的行為,但它能夠知道「你是危險的」,因此,它會采取保守的姿態面對你。

這就導致了,很多時候,算計過多,效果就跟「永遠欺騙」一樣,在嘗到最開始的甜頭之后,遭遇到的是閉門羹。

相反,坦誠相待,一個最大的好處,就是對方很容易理解你。在這個基礎上,能夠降低對方的戒備,提高穩定感,更有效地建立聯系。

4. 不要沖動

現實生活中,絕大多數時候,是非零和博弈。就像前面講過的團隊拓展游戲:分數可以有高低,但雙方都能保證拿到8分,也就是能夠「活下去」。這未必不是一個可以接受的結果。

很多時候,與其玉石俱焚,不如退一步,為自己爭取最后一線機會。

這需要的,是非常理性和冷靜的心態,不受之前的挫折、失敗和背叛影響。

永遠記住,理性人不考慮沉沒成本,不考慮過往的恩怨,只考慮邊際收益。

用一個狼人殺場景來舉例。

你是狼人,現在是夜晚,場上剩下一個第三方,一個獵人,你非常討厭第三方,不想讓第三方贏,那么,你應該刀誰?

刀第三方?如果這樣做,第二天獵人出局,開槍帶走你,結果就是流局,場上無人獲勝。

理性的做法,是刀獵人。這樣,獵人出局,開槍。有50%的可能性帶走你,但也有50%的可能性帶走第三方。

如此,你才可能有一線勝機。

當然啦,這些只是在游戲模擬下的結果,現實生活中是否也是如此?

不知道。但我希望是。

至少,這樣的話,這個世界會更有希望一些。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容

  • 前幾天,我在微信上做了一個有趣的游戲,就是向自認為關系比較好的朋友借錢,看有多少人愿意借錢給你,結果讓人大失所望。...
    心若幽蘭_3b4b閱讀 814評論 7 5
  • 有一個有趣的游戲您愿意參加嗎?“做一件事來影響一群人!” 這是易項能學習的一個任務,我反復考慮過后,我決定參加這個...
    小奚之屋閱讀 700評論 2 1
  • 1. 緒言 如果你正獨自開車送別人的1千萬美金去某地點,酬勞是1千美金,你內心里會不會想從此人間蒸發,然后在某個無...
    諸葛_吳用閱讀 4,655評論 0 5
  • 圍棋機器人——AlphaGo AlphaGo其實是有兩個“大腦”組成的,也就是兩套完整的深度學習網絡來進行配合計算...
    夜空一起砍猩猩閱讀 1,789評論 0 1
  • 6:40早起去上英語課。 吃早飯,做午飯,和朋友做最近的生意小結。賺的錢不多,但有一個是一個。 11點到辦公室,開...
    玉藍田閱讀 173評論 0 0