姓名:王正帥
學(xué)號:14020120007
轉(zhuǎn)載自:mp.weixin.qq.com/s ,有刪節(jié)
【嵌牛導(dǎo)讀】:2016 年,Google 旗下 DeepMind 公司開發(fā)的 AlphaGo 擊敗了韓國職業(yè)九段棋士李世石。今年 5 月,AlphaGo 以三戰(zhàn)全勝的紀(jì)錄贏了名列世界第一的棋王柯潔。隔了五個月后,DeepMind 公布了 AlphaGo Zero,它再度讓人類感到震撼。“我沒有想過一個名詞能獲得所有人的認(rèn)同,從政治人物、科學(xué)家、企業(yè)家、到學(xué)生甚至是小孩,都覺得這件事明天會發(fā)生,這場完美風(fēng)暴的引爆點(diǎn)是 AlphaGo,黃士杰可能自己都沒想過,他那只幫機(jī)器下棋的手,改變這個世界:讓大家相信或者憂慮機(jī)器會超越人類”,Google 臺灣董事總經(jīng)理簡立峰說。人工智能,是簡立峰口中的完美風(fēng)暴,AlphaGo 則是這一波 AI 風(fēng)潮的最佳代言人,那么,黃士杰呢?相信 DeepTech 的讀者們已經(jīng)對這個名字并不陌生,他是 DeepMind 資深研究員,是與人類頂尖棋手對弈時代 AlphaGo 執(zhí)棋的“人肉臂”,更重要的是,他還是開發(fā)這個神秘大腦的關(guān)鍵人物之一。
【嵌牛鼻子】:AlphaGo、AlphaGo Zero、黃士杰、DeepMind
【嵌牛提問】:AlphaGo Zero 是如何誕生的?黃士杰做了哪些突出貢獻(xiàn)?
【嵌牛正文】:
11 月 10 日,黃士杰應(yīng)臺灣人工智能年會之邀來臺演講,演講主題是“AlphaGo—— 深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的勝利”,也是他首次公開演講。
不久前,在 DeepMind 發(fā)表了《Mastering the game of Go without human knowledge》的最新論文后,黃士杰曾在 Facebook 寫下: AlphaGo Zero 是完全脫離人類知識的 AlphaGo 版本。這也就是取名為 AlphaGo Zero 的原因——AlphaGo 從零開始。
在今天的演講上,他強(qiáng)調(diào),DeepMind 的目標(biāo)是要做出一個通用人工智能,也就是強(qiáng)人工智能,但他也認(rèn)為,對 DeepMind 來說,強(qiáng)人工智能還是很遙遠(yuǎn),現(xiàn)在最強(qiáng)的學(xué)習(xí)技能仍然在人類大腦內(nèi),有人說強(qiáng)人工智能要到 2045 年,有人說至少還要 100 年,黃世杰的回答是:“大家不要太擔(dān)心,電影還是電影。”
從 DeepMind 為什么開始做圍棋一直到最新的 AlphaGo Zero,見證了這一切的他稱“這幾年好像在做夢”。
1、開發(fā) Erica,獲邀加入 DeepMind
AlphaGo 怎么開始的?其實(shí)是三組人馬走在一起、串起來的結(jié)晶,第一條線是 Demis Hassabis 和 DeepMind AlphaGo 項目負(fù)責(zé)人 David Silver,第二條線是我,第三條線是 Google Brain 的兩位人員 Chris Maddison 和 Ilya Sutskever。Demis Hassabis 和 David Silver 是在劍橋大學(xué)的同學(xué),他們一起創(chuàng)業(yè)。他們?yōu)槭裁聪胱鰢迥兀慨?dāng)年 IBM 深藍(lán)贏了西洋棋世界冠軍卡斯巴羅夫,就只剩下圍棋是人工智能最大的挑戰(zhàn)。因此他們一直就希望做出很強(qiáng)的圍棋程序,這是他們的夢想。一開始,研究人員是將西洋棋的技術(shù)放進(jìn)圍棋,但這失敗了,2006 年蒙特卡洛樹出來之后,圍棋程序提升到業(yè)余三段,但離職業(yè)水平還是有極大的差距。當(dāng)我開發(fā)出的 Erica 在 2010 年的計算機(jī)奧林匹亞獲得 19 路圍棋的冠軍時,我使用的硬件是 8 cores,Zen 用了 6 臺 PC,美國的 Many Faces of GO 是用 12 cores,其他對手都是用大機(jī)器,但小蝦米卻贏了大鯨魚。不久,Demis Hassabis 就寫了一封信問我要不要加入,面試時他們告訴我,他們的夢想就是強(qiáng)人工智慧。隔年我就加入 DeepMind。當(dāng)我們開始做 GO Project 時,大家都有一個共識——不復(fù)制 Erica,因?yàn)闆]有意義,我們決定要把深度學(xué)習(xí)應(yīng)用進(jìn)來。
2、AlphaGo 的成功是深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的勝利
我們怎么判斷深度學(xué)習(xí)可能可以用在圍棋呢?如果說,人看一個棋盤,幾秒內(nèi)大概可以知道下這里、下那里會是好棋,這種任務(wù)神經(jīng)網(wǎng)絡(luò)就辦得到,但如果要想好幾分鐘后怎么走,那神經(jīng)網(wǎng)絡(luò)就可能辦不到。當(dāng)初我們就有這 么一個直覺:要以深度學(xué)習(xí)建構(gòu)策略網(wǎng)絡(luò)。
AlphaGo 的主要突破是價值網(wǎng)絡(luò),有一天,David Silver 跟我說他有這樣一個想法,當(dāng)時我還有點(diǎn)質(zhì)疑。我們把策略網(wǎng)絡(luò)做出來后,勝率就提高到 70~80%,后來加入了 David Silver 提出的價值網(wǎng)絡(luò),要讓機(jī)器進(jìn)行不斷左右互搏的自我學(xué)習(xí),一開始不太成功,過了一個月我們克服 over fitting 的問題后,AlphaGo 的勝率大大提升到 95%,而這也是后面 AlphaGo Zero 的主要核心。
后來老板就說,要跟人類面對面下棋,就得跟樊麾老師比賽。我記得,當(dāng)樊麾第二盤棋輸了之后,他就說:我要出去走走,因?yàn)楝F(xiàn)場只有我和他說中文,我就說:我陪你,他回答:不用,我自己透透氣。樊麾回來后,他變得很正面,他不覺得這東西很可怕,而是很正面也很值得期待,因此他后來也變成 DeepMind 團(tuán)隊的一員。再后來,我們選擇公開發(fā)表這個研究的論文,因?yàn)榭茖W(xué)的精神就是互相分享,希望推動整個研究領(lǐng)域進(jìn)步。之后,加入 Google 也為我們帶來很大幫助,特別是硬件上,從 GPU 到 TPU 都沒有后顧之憂。但 TPU 對我們有極大幫助,把勝率提高了很多。
另外,大家不要忘記,AlphaGo 在跟李世石比賽時,第四盤棋輸?shù)暮軕K,我當(dāng)時想說,我自己來下都比較好。盡管最后我們贏了,但回去后就一定要解決這個弱點(diǎn),不是只解決當(dāng)初第四盤的弱點(diǎn),必須全面性地解決,否則以后還是沒有人敢用 AI 系統(tǒng)。進(jìn)化后的版本就是 AlphaGo Master。
我們到底怎么解決呢?還是用深度學(xué)習(xí)跟強(qiáng)化學(xué)習(xí)的方法,而不是用人類知識方法。
我們把 AlphaGo 的學(xué)習(xí)能力變強(qiáng),從神經(jīng)網(wǎng)絡(luò)加深:從 13 層變成了 40 層,并改成 ResNet。
把 2 個網(wǎng)絡(luò)(決策網(wǎng)絡(luò)、價值網(wǎng)絡(luò))結(jié)合成 1 個網(wǎng)絡(luò),讓 AlphaGo 的直覺和判斷同時得到訓(xùn)練,更有一致性。
?改進(jìn)訓(xùn)練的 pipeline。
解決了模仿期、循環(huán)期等特別情況。
3、超越以往的 AlphaGo Zero
AlphaGo Zero 是連我們自己都很驚訝的版本,因?yàn)樗谝徊骄褪前阉腥祟愔R的部分都拋掉,它是脫離“人類知識”,不是脫離“規(guī)則知識,我們一樣是給要它 19X19 的盤面訓(xùn)練。
從零開始的 AlphaGo 還真的是全部亂下、徹底亂下,所以最初我們預(yù)期 AlphaGo Zero 應(yīng)該是贏不了 AlphaGo Master,后來我們用了一些方法把卡住的地方解決了,細(xì)節(jié)可以參考論文,沒想到 AlphaGo Master 進(jìn)一步超越原先的版本,3 天就走完人類幾千年圍棋研究的歷程。深度學(xué)習(xí)跟強(qiáng)化學(xué)習(xí)的威力真是太大。
AlphaGo Zero 用了 2000 個 TPU 、訓(xùn)練了 40 天。第 40 天還沒有到達(dá)其極限,但因?yàn)槲覀儥C(jī)器要做其他事情就停下了,所以它還有很大的潛力。AlphaGo Zero 論文的目的不是要做出很強(qiáng)的程序,也沒有想要跟人類知識比較、或是討論人類知識有沒有用這些問題,而是想證明程序不需要人類知識也可以擁有很強(qiáng)的能力。
我觀察到,計算機(jī)圍棋 AI 的價值在于幫助人類或棋手?jǐn)U展圍棋的理論和思路,未來 AI 是人類的工具,跟人類合作,而非跟人類對抗。強(qiáng)人工智能還是 Far Away,現(xiàn)在最強(qiáng)的學(xué)習(xí)技能仍在人類的腦袋里。
4、總結(jié)
也就是說,從一個不知道圍棋游戲規(guī)則的神經(jīng)網(wǎng)絡(luò)開始,沒有任何人類指導(dǎo)或人類智能的參與,僅僅通過全新的強(qiáng)化學(xué)習(xí)算法,讓程序自我對弈,自己成為自己的老師,在這過程中神經(jīng)網(wǎng)絡(luò)不斷被更新和調(diào)整。沒想到的是,機(jī)器訓(xùn)練的時間更短,但卻更聰明,例如,AlphaGo Zero 在 3 天內(nèi)進(jìn)行過 490 萬次自我對弈,就達(dá)到了先前擊敗李世石的程度,但之前他們訓(xùn)練與李世石對戰(zhàn)的 AlphaGo 卻花費(fèi)了長達(dá)數(shù)個月的時間。另外,AlphaGo Zero 21 天就達(dá)到了在烏鎮(zhèn)圍棋峰會打敗柯潔的 AlphaGo Master 的水平。