輸不要緊,重要的是,我們還有機會猜測AlphaGo的獨特思維。
為什么某一階段的最優策略,有時恰恰是全局最劣策略?
“破壞性創新”的經典案例:鋼鐵巨人是如何倒下的。
1、致兩千年后的你
那一天,人類終于回想起,曾經一度被AlphaGo支配的恐怖,還有被囚禁于棋局中的那份恥辱。
李世石能贏一局,水平更高的柯潔卻一局都贏不了,因為人類進步靠經驗,經驗積累靠感覺,而AlphaGo進步的方向只有一個:不斷積累“勝率”更高的走法。
AlphaGo 開發團隊主管使用 Elo 算法評估AlphaGo對陣柯潔,每局的勝率為99.37% 。
劍未出手,勝負已分,這不是古龍小說,這是AI時代的游戲規則。
AlphaGo的開發團隊沒有圍棋高手,只負責算法和喂“棋局”(據說現在連棋局都不“喂”了),AlphaGo可算是不折不扣的“自學成才”。
所以,輸不要緊,重要的是,我們還有機會猜測AlphaGo的獨特思維。
2、AlphaGo為什么常下“臭棋”?
圍棋大師能夠記憶實戰棋局,卻記不住棋盤上隨意擺放的棋子。因為人類下棋的方法,是把棋局分為幾塊,左下角、右下角、邊路、中腹……,再去評估每一塊的得失。
人類這么做也是沒辦法,因為我們可以評估每一步棋對某一塊的形勢影響,卻無法計算這一步棋對整個棋局的影響。人類也有“內勢”和“外勢”概念,只不過,所有不基于概率的思考,都是“人類一思考,AlphaGo就發笑”。
AlphaGo不是一塊一塊地思考。每手棋,它都要重新評估整個棋盤,這個能力,既來自它強大的計算能力,也在于它看過棋局,是對手的幾十上百倍。
去年的時候,人類還嘲笑AlphaGo經常下“臭棋”。后來人類明白了,對某一塊棋是“臭棋”的,恰恰提升了全局的勝率。
總結成一句話:“某一階段的最優策略,有時恰恰是全局的最劣策略?!?/b>
這個說法,讓我想起了美國管理學家克萊頓·克里斯坦森(Clayton Christensen)提出的“破壞性創新”理論(Disruptive Innovation)。
3、鋼鐵巨人是如何被打敗的?
讓我們重溫作者的一個鋼鐵行業的經典案例吧。這樣的事情,在每個行業都發生過,尤其在中國。
假設有一家行業NO.1的巨型鋼鐵企業,我們暫時叫它“宇宙鋼鐵”,技術牛,產品線豐富,資本雄厚。
看上去,“宇宙鋼鐵”沒有競爭對手了?當然不會,一定會有一些“小不點兒”鋼廠,質量雖然不行,但成本更低,它們的下游客戶也是利潤微薄的小企業,買不起也不需要好鋼材。
“宇宙鋼鐵”一開始沒把這些“小不點兒”當回事,直到經濟繁榮忽然停止,“宇宙鋼鐵”發現,自己的大客戶因為利潤下降,用不起自己的產品,紛紛改買“小不點兒”們的產品。
怎么辦呢?董事會找來了咨詢公司,請專家分析鋼鐵行業。他們分析了“宇宙鋼鐵”的產品結構,發現其中最基礎的鋼筋產品,技術難度低,客戶對成本更敏感,而鋼板產品,工藝最復雜,客戶對品質更敏感。
“磚家叫獸”們給出了一個理所當然的“聰明”建議:避免劣勢,退出低利潤的鋼筋市場;發揮優勢,大力拓展高利潤的鋼板市場。
這個策略看上去一點問題都沒有,我們常常在上市公司年報中看到“產品升級,進入利潤率更高的XX市場”這樣的字眼,再被證券研究機構一忽悠,股價立刻來個漲停板。
接下來會發生什么呢?花開兩朵,各表一枝,我們先講“宇宙鋼鐵”。由于放棄了低毛利產品,高利潤帶動資本收益率大幅上升,投資人紛紛看好,股價一路上揚。但其中的危機,卻沒有人看出來。
花的另一枝就是行業本身的巨變,由于“宇宙鋼鐵”撤出低利潤的鋼筋市場,這個市場被大量“小不點兒”企業占據,它們之間發生了慘烈的價格戰,被分析師判定為最危險的行業。
所有殺不死你的,都會讓你更強大。那些最后活下來的企業,要么是經過收購兼并重組,要么是保持低成本的同時升級了技術。而價格戰的噩夢,也讓他們把眼光投向更高利潤的鋼板市場。
這個策略的問題就開始暴露了,“宇宙鋼鐵”再次成為靶子,只是對手比當初更強大。當你放棄了一個細分市場的時候,只要市場需求還在,你其實是在為自己培養競爭對手。
“宇宙鋼鐵”的好日子到頭了嗎?還沒有,董事會又作出了“英明”的最優決策:進入利潤更高的鋼架市場——只是這一次,它已經無法再用高利潤來掩飾市場份額的下降了。
新一輪循環開始了,但巨人的命運早已注定。可我們還是要繼續追問開始的那個問題:我們能否避免“現在的優勢導致未來的敗局”呢?
4、“贏多少”重要,還是“贏面多大”重要?
讓我們再回到“人機大戰”,看看人類和AlphaGo的決策方法有什么不同。
前面說了,人類下圍棋是一塊棋一塊棋的累積優勢。所以,人類的最佳策略是把握好每一塊棋,打得過的地方盡量多贏幾目,打不過的地方盡量少丟幾目,能夠斬對方大龍的機會,絕不放過,用每一塊的優勢,爭取全局的勝利。
一句話概括:人類直接計算的是“勝幅”——這一手棋下去,能賺幾目。
而AlphaGo不同,前面說它是全局思考的,所以它直接計算的是“勝率”——這一手棋下去后,最終的贏面概率是多少。只要它覺得這么下可以提高未來的“勝率”,哪怕眼前讓對方賺上幾目,也就是人類眼里的“臭棋”,也可以接受。
換一種說法:在98%概率贏5萬,和99%的概率贏1萬元之間,人類選前者,AlphaGo選后者。
我們能否從“勝幅”和“勝率”的不同思維出發,再反思一下“宇宙鋼鐵”的案例呢?
5、100年之后的企業生存概率
“宇宙鋼鐵”在第一次危機中,有兩個選擇:一是保利潤,保住自己現在的優勢(勝幅策略),二是保市場,加入兩敗俱傷的價格戰,遏制競爭對手,爭取未來活下來的概率(勝率策略)。
現在我們知道了,選擇一是錯誤的。但當初,“宇宙鋼鐵”能夠避免這個錯誤嗎?
如果CEO不是一個披著人類外皮的機器人,基本上,這個,很難。
選擇一注重現在的優勢,我們稱之為“百強企業戰略”,它有一套財務指標體系,利潤率、銷售額、凈資產收益率……
選擇二注重長遠的生存,我們稱之為“百年企業戰略”,但它無法被評估。如果一定要有一個指標的話,那我們就開個腦洞,叫它“存活指數”——100年之后的生存概率。
如果企業以后能發展出自己的“人工智能”,它恐怕最關心的就是這一條指標,就像人人都怕死一樣。
遺憾的是,人類不擅長概率計算,這個指標,恐怕只有AlphaGo這樣的人工智能才有可能學會計算。
人類只能看到眼前的利益。“宇宙鋼鐵”的選擇,我們完全可以理解,一個守著低毛利產品不放還打價格戰CEO,財務數據一定很難看,一定會被股東掃地出門。
但希望未必沒有,人類直覺學習的能力,從未被真正開發過。在AlphaGo打敗李世石之后,圍棋界出現了“AlphaGo流”,模仿它一些獨特的下法,反思被過去奉為圣經的定式。
因為這些,都可能是人類思維的盲區。
6、致兩千年后的你
記得《棋魂》中有一段對話:
“圍棋的樂趣在于有對手的存在?!?/p>
“那棋神不是很寂寞了嗎?”
“因為這樣,所以神教會人類下棋,希望人類能理解他的世界?!?/b>
近期熱文
邏輯性差怎么辦?4個“蘇格拉底式提問”一定有幫助
節日怎樣安排加班,才能人人滿意又公平?
碎片化學習是如何把林則徐帶到“坑”里去的?