AlphaGo “人肉臂”黃士杰首度公開演講:Zero版本并未到達(dá)極限,加入DeepMind這四件事對我影響最大

姓名:王正帥

學(xué)號:14020120007

轉(zhuǎn)載自:mp.weixin.qq.com/s ,有刪節(jié)

【嵌牛導(dǎo)讀】:2016 年,Google 旗下 DeepMind 公司開發(fā)的 AlphaGo 擊敗了韓國職業(yè)九段棋士李世石。今年 5 月,AlphaGo 以三戰(zhàn)全勝的紀(jì)錄贏了名列世界第一的棋王柯潔。隔了五個月后,DeepMind 公布了 AlphaGo Zero,它再度讓人類感到震撼。“我沒有想過一個名詞能獲得所有人的認(rèn)同,從政治人物、科學(xué)家、企業(yè)家、到學(xué)生甚至是小孩,都覺得這件事明天會發(fā)生,這場完美風(fēng)暴的引爆點(diǎn)是 AlphaGo,黃士杰可能自己都沒想過,他那只幫機(jī)器下棋的手,改變這個世界:讓大家相信或者憂慮機(jī)器會超越人類”,Google 臺灣董事總經(jīng)理簡立峰說。人工智能,是簡立峰口中的完美風(fēng)暴,AlphaGo 則是這一波 AI 風(fēng)潮的最佳代言人,那么,黃士杰呢?相信 DeepTech 的讀者們已經(jīng)對這個名字并不陌生,他是 DeepMind 資深研究員,是與人類頂尖棋手對弈時代 AlphaGo 執(zhí)棋的“人肉臂”,更重要的是,他還是開發(fā)這個神秘大腦的關(guān)鍵人物之一。

【嵌牛鼻子】:AlphaGo、AlphaGo Zero、黃士杰、DeepMind

【嵌牛提問】:AlphaGo Zero 是如何誕生的?黃士杰做了哪些突出貢獻(xiàn)?

【嵌牛正文】:


11 月 10 日,黃士杰應(yīng)臺灣人工智能年會之邀來臺演講,演講主題是“AlphaGo—— 深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的勝利也是他首次公開演講

不久前,在 DeepMind 發(fā)表了《Mastering the game of Go without human knowledge》的最新論文后,黃士杰曾在 Facebook 寫下: AlphaGo Zero 是完全脫離人類知識的 AlphaGo 版本。這也就是取名為 AlphaGo Zero 的原因——AlphaGo 從零開始。

在今天的演講上,他強(qiáng)調(diào),DeepMind 的目標(biāo)是要做出一個通用人工智能,也就是強(qiáng)人工智能,但他也認(rèn)為,對 DeepMind 來說,強(qiáng)人工智能還是很遙遠(yuǎn),現(xiàn)在最強(qiáng)的學(xué)習(xí)技能仍然在人類大腦內(nèi),有人說強(qiáng)人工智能要到 2045 年,有人說至少還要 100 年,黃世杰的回答是:“大家不要太擔(dān)心,電影還是電影。”

從 DeepMind 為什么開始做圍棋一直到最新的 AlphaGo Zero,見證了這一切的他稱“這幾年好像在做夢”。

1、開發(fā) Erica,獲邀加入 DeepMind

AlphaGo 怎么開始的?其實(shí)是三組人馬走在一起、串起來的結(jié)晶,第一條線是 Demis Hassabis 和 DeepMind AlphaGo 項目負(fù)責(zé)人 David Silver,第二條線是我,第三條線是 Google Brain 的兩位人員 Chris Maddison 和 Ilya Sutskever。Demis Hassabis 和 David Silver 是在劍橋大學(xué)的同學(xué),他們一起創(chuàng)業(yè)。他們?yōu)槭裁聪胱鰢迥兀慨?dāng)年 IBM 深藍(lán)贏了西洋棋世界冠軍卡斯巴羅夫,就只剩下圍棋是人工智能最大的挑戰(zhàn)。因此他們一直就希望做出很強(qiáng)的圍棋程序,這是他們的夢想。一開始,研究人員是將西洋棋的技術(shù)放進(jìn)圍棋,但這失敗了,2006 年蒙特卡洛樹出來之后,圍棋程序提升到業(yè)余三段,但離職業(yè)水平還是有極大的差距。當(dāng)我開發(fā)出的 Erica 在 2010 年的計算機(jī)奧林匹亞獲得 19 路圍棋的冠軍時,我使用的硬件是 8 cores,Zen 用了 6 臺 PC,美國的 Many Faces of GO 是用 12 cores,其他對手都是用大機(jī)器,但小蝦米卻贏了大鯨魚。不久,Demis Hassabis 就寫了一封信問我要不要加入,面試時他們告訴我,他們的夢想就是強(qiáng)人工智慧。隔年我就加入 DeepMind。當(dāng)我們開始做 GO Project 時,大家都有一個共識——不復(fù)制 Erica,因?yàn)闆]有意義,我們決定要把深度學(xué)習(xí)應(yīng)用進(jìn)來。

2、AlphaGo 的成功是深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的勝利

我們怎么判斷深度學(xué)習(xí)可能可以用在圍棋呢?如果說,人看一個棋盤,幾秒內(nèi)大概可以知道下這里、下那里會是好棋,這種任務(wù)神經(jīng)網(wǎng)絡(luò)就辦得到,但如果要想好幾分鐘后怎么走,那神經(jīng)網(wǎng)絡(luò)就可能辦不到。當(dāng)初我們就有這 么一個直覺:要以深度學(xué)習(xí)建構(gòu)策略網(wǎng)絡(luò)

AlphaGo 的主要突破是價值網(wǎng)絡(luò),有一天,David Silver 跟我說他有這樣一個想法,當(dāng)時我還有點(diǎn)質(zhì)疑。我們把策略網(wǎng)絡(luò)做出來后,勝率就提高到 70~80%,后來加入了 David Silver 提出的價值網(wǎng)絡(luò),要讓機(jī)器進(jìn)行不斷左右互搏的自我學(xué)習(xí),一開始不太成功,過了一個月我們克服 over fitting 的問題后,AlphaGo 的勝率大大提升到 95%,而這也是后面 AlphaGo Zero 的主要核心。

后來老板就說,要跟人類面對面下棋,就得跟樊麾老師比賽。我記得,當(dāng)樊麾第二盤棋輸了之后,他就說:我要出去走走,因?yàn)楝F(xiàn)場只有我和他說中文,我就說:我陪你,他回答:不用,我自己透透氣。樊麾回來后,他變得很正面,他不覺得這東西很可怕,而是很正面也很值得期待,因此他后來也變成 DeepMind 團(tuán)隊的一員。再后來,我們選擇公開發(fā)表這個研究的論文,因?yàn)榭茖W(xué)的精神就是互相分享,希望推動整個研究領(lǐng)域進(jìn)步。之后,加入 Google 也為我們帶來很大幫助,特別是硬件上,從 GPU 到 TPU 都沒有后顧之憂。但 TPU 對我們有極大幫助,把勝率提高了很多。

另外,大家不要忘記,AlphaGo 在跟李世石比賽時,第四盤棋輸?shù)暮軕K,我當(dāng)時想說,我自己來下都比較好。盡管最后我們贏了,但回去后就一定要解決這個弱點(diǎn),不是只解決當(dāng)初第四盤的弱點(diǎn),必須全面性地解決,否則以后還是沒有人敢用 AI 系統(tǒng)。進(jìn)化后的版本就是 AlphaGo Master。

我們到底怎么解決呢?還是用深度學(xué)習(xí)跟強(qiáng)化學(xué)習(xí)的方法,而不是用人類知識方法。

我們把 AlphaGo 的學(xué)習(xí)能力變強(qiáng),從神經(jīng)網(wǎng)絡(luò)加深:從 13 層變成了 40 層,并改成 ResNet。

把 2 個網(wǎng)絡(luò)(決策網(wǎng)絡(luò)、價值網(wǎng)絡(luò))結(jié)合成 1 個網(wǎng)絡(luò),讓 AlphaGo 的直覺和判斷同時得到訓(xùn)練,更有一致性。

?改進(jìn)訓(xùn)練的 pipeline。

解決了模仿期、循環(huán)期等特別情況。

3、超越以往的 AlphaGo Zero

AlphaGo Zero 是連我們自己都很驚訝的版本,因?yàn)樗谝徊骄褪前阉腥祟愔R的部分都拋掉,它是脫離“人類知識”,不是脫離“規(guī)則知識,我們一樣是給要它 19X19 的盤面訓(xùn)練。

從零開始的 AlphaGo 還真的是全部亂下、徹底亂下,所以最初我們預(yù)期 AlphaGo Zero 應(yīng)該是贏不了 AlphaGo Master,后來我們用了一些方法把卡住的地方解決了,細(xì)節(jié)可以參考論文,沒想到 AlphaGo Master 進(jìn)一步超越原先的版本,3 天就走完人類幾千年圍棋研究的歷程。深度學(xué)習(xí)跟強(qiáng)化學(xué)習(xí)的威力真是太大。

AlphaGo Zero 用了 2000 個 TPU 、訓(xùn)練了 40 天。第 40 天還沒有到達(dá)其極限,但因?yàn)槲覀儥C(jī)器要做其他事情就停下了,所以它還有很大的潛力。AlphaGo Zero 論文的目的不是要做出很強(qiáng)的程序,也沒有想要跟人類知識比較、或是討論人類知識有沒有用這些問題,而是想證明程序不需要人類知識也可以擁有很強(qiáng)的能力。

我觀察到,計算機(jī)圍棋 AI 的價值在于幫助人類或棋手?jǐn)U展圍棋的理論和思路未來 AI 是人類的工具,跟人類合作,而非跟人類對抗。強(qiáng)人工智能還是 Far Away,現(xiàn)在最強(qiáng)的學(xué)習(xí)技能仍在人類的腦袋里。

4、總結(jié)

也就是說,從一個不知道圍棋游戲規(guī)則的神經(jīng)網(wǎng)絡(luò)開始,沒有任何人類指導(dǎo)或人類智能的參與,僅僅通過全新的強(qiáng)化學(xué)習(xí)算法,讓程序自我對弈,自己成為自己的老師,在這過程中神經(jīng)網(wǎng)絡(luò)不斷被更新和調(diào)整。沒想到的是,機(jī)器訓(xùn)練的時間更短,但卻更聰明,例如,AlphaGo Zero 在 3 天內(nèi)進(jìn)行過 490 萬次自我對弈,就達(dá)到了先前擊敗李世石的程度,但之前他們訓(xùn)練與李世石對戰(zhàn)的 AlphaGo 卻花費(fèi)了長達(dá)數(shù)個月的時間。另外,AlphaGo Zero 21 天就達(dá)到了在烏鎮(zhèn)圍棋峰會打敗柯潔的 AlphaGo Master 的水平。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,908評論 6 541
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 99,324評論 3 429
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,018評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,675評論 1 317
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 72,417評論 6 412
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,783評論 1 329
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,779評論 3 446
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,960評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,522評論 1 335
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 41,267評論 3 358
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 43,471評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,009評論 5 363
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,698評論 3 348
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,099評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,386評論 1 294
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,204評論 3 398
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 48,436評論 2 378

推薦閱讀更多精彩內(nèi)容