AlphaGo “人肉臂”黃士杰首度公開演講：Zero版本并未到達(dá)極限，加入DeepMind這四件事對我影響最大

姓名：王正帥

學(xué)號：14020120007

轉(zhuǎn)載自：mp.weixin.qq.com/s ，有刪節(jié)

【嵌牛導(dǎo)讀】：2016 年，Google 旗下 DeepMind 公司開發(fā)的 AlphaGo 擊敗了韓國職業(yè)九段棋士李世石。今年 5 月，AlphaGo 以三戰(zhàn)全勝的紀(jì)錄贏了名列世界第一的棋王柯潔。隔了五個月后，DeepMind 公布了 AlphaGo Zero，它再度讓人類感到震撼。“我沒有想過一個名詞能獲得所有人的認(rèn)同，從政治人物、科學(xué)家、企業(yè)家、到學(xué)生甚至是小孩，都覺得這件事明天會發(fā)生，這場完美風(fēng)暴的引爆點(diǎn)是 AlphaGo，黃士杰可能自己都沒想過，他那只幫機(jī)器下棋的手，改變這個世界：讓大家相信或者憂慮機(jī)器會超越人類”，Google 臺灣董事總經(jīng)理簡立峰說。人工智能，是簡立峰口中的完美風(fēng)暴，AlphaGo 則是這一波 AI 風(fēng)潮的最佳代言人，那么，黃士杰呢？相信 DeepTech 的讀者們已經(jīng)對這個名字并不陌生，他是 DeepMind 資深研究員，是與人類頂尖棋手對弈時代 AlphaGo 執(zhí)棋的“人肉臂”，更重要的是，他還是開發(fā)這個神秘大腦的關(guān)鍵人物之一。

【嵌牛鼻子】：AlphaGo、AlphaGo Zero、黃士杰、DeepMind

【嵌牛提問】：AlphaGo Zero 是如何誕生的？黃士杰做了哪些突出貢獻(xiàn)？

【嵌牛正文】：

11 月 10 日，黃士杰應(yīng)臺灣人工智能年會之邀來臺演講，演講主題是“AlphaGo—— 深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的勝利”，也是他首次公開演講。

不久前，在 DeepMind 發(fā)表了《Mastering the game of Go without human knowledge》的最新論文后，黃士杰曾在 Facebook 寫下： AlphaGo Zero 是完全脫離人類知識的 AlphaGo 版本。這也就是取名為 AlphaGo Zero 的原因——AlphaGo 從零開始。

在今天的演講上，他強(qiáng)調(diào)，DeepMind 的目標(biāo)是要做出一個通用人工智能，也就是強(qiáng)人工智能，但他也認(rèn)為，對 DeepMind 來說，強(qiáng)人工智能還是很遙遠(yuǎn)，現(xiàn)在最強(qiáng)的學(xué)習(xí)技能仍然在人類大腦內(nèi)，有人說強(qiáng)人工智能要到 2045 年，有人說至少還要 100 年，黃世杰的回答是：“大家不要太擔(dān)心，電影還是電影。”

從 DeepMind 為什么開始做圍棋一直到最新的 AlphaGo Zero，見證了這一切的他稱“這幾年好像在做夢”。

1、開發(fā) Erica，獲邀加入 DeepMind

AlphaGo 怎么開始的？其實(shí)是三組人馬走在一起、串起來的結(jié)晶，第一條線是 Demis Hassabis 和 DeepMind AlphaGo 項目負(fù)責(zé)人 David Silver，第二條線是我，第三條線是 Google Brain 的兩位人員 Chris Maddison 和 Ilya Sutskever。Demis Hassabis 和 David Silver 是在劍橋大學(xué)的同學(xué)，他們一起創(chuàng)業(yè)。他們?yōu)槭裁聪胱鰢迥兀慨?dāng)年 IBM 深藍(lán)贏了西洋棋世界冠軍卡斯巴羅夫，就只剩下圍棋是人工智能最大的挑戰(zhàn)。因此他們一直就希望做出很強(qiáng)的圍棋程序，這是他們的夢想。一開始，研究人員是將西洋棋的技術(shù)放進(jìn)圍棋，但這失敗了，2006 年蒙特卡洛樹出來之后，圍棋程序提升到業(yè)余三段，但離職業(yè)水平還是有極大的差距。當(dāng)我開發(fā)出的 Erica 在 2010 年的計算機(jī)奧林匹亞獲得 19 路圍棋的冠軍時，我使用的硬件是 8 cores，Zen 用了 6 臺 PC，美國的 Many Faces of GO 是用 12 cores，其他對手都是用大機(jī)器，但小蝦米卻贏了大鯨魚。不久，Demis Hassabis 就寫了一封信問我要不要加入，面試時他們告訴我，他們的夢想就是強(qiáng)人工智慧。隔年我就加入 DeepMind。當(dāng)我們開始做 GO Project 時，大家都有一個共識——不復(fù)制 Erica，因?yàn)闆]有意義，我們決定要把深度學(xué)習(xí)應(yīng)用進(jìn)來。

2、AlphaGo 的成功是深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的勝利

我們怎么判斷深度學(xué)習(xí)可能可以用在圍棋呢？如果說，人看一個棋盤，幾秒內(nèi)大概可以知道下這里、下那里會是好棋，這種任務(wù)神經(jīng)網(wǎng)絡(luò)就辦得到，但如果要想好幾分鐘后怎么走，那神經(jīng)網(wǎng)絡(luò)就可能辦不到。當(dāng)初我們就有這么一個直覺：要以深度學(xué)習(xí)建構(gòu)策略網(wǎng)絡(luò)。

AlphaGo 的主要突破是價值網(wǎng)絡(luò)，有一天，David Silver 跟我說他有這樣一個想法，當(dāng)時我還有點(diǎn)質(zhì)疑。我們把策略網(wǎng)絡(luò)做出來后，勝率就提高到 70～80％，后來加入了 David Silver 提出的價值網(wǎng)絡(luò)，要讓機(jī)器進(jìn)行不斷左右互搏的自我學(xué)習(xí)，一開始不太成功，過了一個月我們克服 over fitting 的問題后，AlphaGo 的勝率大大提升到 95％，而這也是后面 AlphaGo Zero 的主要核心。

后來老板就說，要跟人類面對面下棋，就得跟樊麾老師比賽。我記得，當(dāng)樊麾第二盤棋輸了之后，他就說：我要出去走走，因?yàn)楝F(xiàn)場只有我和他說中文，我就說：我陪你，他回答：不用，我自己透透氣。樊麾回來后，他變得很正面，他不覺得這東西很可怕，而是很正面也很值得期待，因此他后來也變成 DeepMind 團(tuán)隊的一員。再后來，我們選擇公開發(fā)表這個研究的論文，因?yàn)榭茖W(xué)的精神就是互相分享，希望推動整個研究領(lǐng)域進(jìn)步。之后，加入 Google 也為我們帶來很大幫助，特別是硬件上，從 GPU 到 TPU 都沒有后顧之憂。但 TPU 對我們有極大幫助，把勝率提高了很多。

另外，大家不要忘記，AlphaGo 在跟李世石比賽時，第四盤棋輸?shù)暮軕K，我當(dāng)時想說，我自己來下都比較好。盡管最后我們贏了，但回去后就一定要解決這個弱點(diǎn)，不是只解決當(dāng)初第四盤的弱點(diǎn)，必須全面性地解決，否則以后還是沒有人敢用 AI 系統(tǒng)。進(jìn)化后的版本就是 AlphaGo Master。

我們到底怎么解決呢？還是用深度學(xué)習(xí)跟強(qiáng)化學(xué)習(xí)的方法，而不是用人類知識方法。

我們把 AlphaGo 的學(xué)習(xí)能力變強(qiáng)，從神經(jīng)網(wǎng)絡(luò)加深：從 13 層變成了 40 層，并改成 ResNet。

把 2 個網(wǎng)絡(luò)（決策網(wǎng)絡(luò)、價值網(wǎng)絡(luò)）結(jié)合成 1 個網(wǎng)絡(luò)，讓 AlphaGo 的直覺和判斷同時得到訓(xùn)練，更有一致性。

?改進(jìn)訓(xùn)練的 pipeline。

解決了模仿期、循環(huán)期等特別情況。

3、超越以往的 AlphaGo Zero

AlphaGo Zero 是連我們自己都很驚訝的版本，因?yàn)樗谝徊骄褪前阉腥祟愔R的部分都拋掉，它是脫離“人類知識”，不是脫離“規(guī)則知識，我們一樣是給要它 19X19 的盤面訓(xùn)練。

從零開始的 AlphaGo 還真的是全部亂下、徹底亂下，所以最初我們預(yù)期 AlphaGo Zero 應(yīng)該是贏不了 AlphaGo Master，后來我們用了一些方法把卡住的地方解決了，細(xì)節(jié)可以參考論文，沒想到 AlphaGo Master 進(jìn)一步超越原先的版本，3 天就走完人類幾千年圍棋研究的歷程。深度學(xué)習(xí)跟強(qiáng)化學(xué)習(xí)的威力真是太大。

AlphaGo Zero 用了 2000 個 TPU 、訓(xùn)練了 40 天。第 40 天還沒有到達(dá)其極限，但因?yàn)槲覀儥C(jī)器要做其他事情就停下了，所以它還有很大的潛力。AlphaGo Zero 論文的目的不是要做出很強(qiáng)的程序，也沒有想要跟人類知識比較、或是討論人類知識有沒有用這些問題，而是想證明程序不需要人類知識也可以擁有很強(qiáng)的能力。

我觀察到，計算機(jī)圍棋 AI 的價值在于幫助人類或棋手?jǐn)U展圍棋的理論和思路，未來 AI 是人類的工具，跟人類合作，而非跟人類對抗。強(qiáng)人工智能還是 Far Away，現(xiàn)在最強(qiáng)的學(xué)習(xí)技能仍在人類的腦袋里。

4、總結(jié)

也就是說，從一個不知道圍棋游戲規(guī)則的神經(jīng)網(wǎng)絡(luò)開始，沒有任何人類指導(dǎo)或人類智能的參與，僅僅通過全新的強(qiáng)化學(xué)習(xí)算法，讓程序自我對弈，自己成為自己的老師，在這過程中神經(jīng)網(wǎng)絡(luò)不斷被更新和調(diào)整。沒想到的是，機(jī)器訓(xùn)練的時間更短，但卻更聰明，例如，AlphaGo Zero 在 3 天內(nèi)進(jìn)行過 490 萬次自我對弈，就達(dá)到了先前擊敗李世石的程度，但之前他們訓(xùn)練與李世石對戰(zhàn)的 AlphaGo 卻花費(fèi)了長達(dá)數(shù)個月的時間。另外，AlphaGo Zero 21 天就達(dá)到了在烏鎮(zhèn)圍棋峰會打敗柯潔的 AlphaGo Master 的水平。

最后編輯于：2017.12.11 13:43:06

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點(diǎn)，簡書系信息發(fā)布平臺，僅提供信息存儲服務(wù)。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 229,908評論 6贊 541
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 99,324評論 3贊 429
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 178,018評論 0贊 383
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經(jīng)常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 63,675評論 1贊 317
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 72,417評論 6贊 412
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 55,783評論 1贊 329
城市分裂傳說
那天，我揣著相機(jī)與錄音，去河邊找鬼。笑死，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,779評論 3贊 446
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 42,960評論 0贊 290
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 49,522評論 1贊 335
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 41,267評論 3贊 358
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 43,471評論 1贊 374
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 39,009評論 5贊 363
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 44,698評論 3贊 348
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 35,099評論 0贊 28
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 36,386評論 1贊 294
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 52,204評論 3贊 398
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 48,436評論 2贊 378

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

AlphaGo “人肉臂”黃士杰首度公開演講：Zero版本并未到達(dá)極限，加入DeepMind這四件事對我影響最大

AlphaGo “人肉臂”黃士杰首度公開演講：Zero版本并未到達(dá)極限，加入DeepMind這四件事對我影響最大

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

AlphaGo “人肉臂”黃士杰首度公開演講：Zero版本并未到達(dá)極限，加入DeepMind這四件事對我影響最大

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频