進(jìn)擊的深度強(qiáng)化學(xué)習(xí)——寫在 Dota2 5v5 被AI攻克之前

Neil Zhu,簡書ID Not_GOD,University AI 創(chuàng)始人 & Chief Scientist,致力于推進(jìn)世界人工智能化進(jìn)程。制定并實(shí)施 UAI 中長期增長戰(zhàn)略和目標(biāo),帶領(lǐng)團(tuán)隊快速成長為人工智能領(lǐng)域最專業(yè)的力量。
作為行業(yè)領(lǐng)導(dǎo)者,他和UAI一起在2014年創(chuàng)建了TASA(中國最早的人工智能社團(tuán)), DL Center(深度學(xué)習(xí)知識中心全球價值網(wǎng)絡(luò)),AI growth(行業(yè)智庫培訓(xùn))等,為中國的人工智能人才建設(shè)輸送了大量的血液和養(yǎng)分。此外,他還參與或者舉辦過各類國際性的人工智能峰會和活動,產(chǎn)生了巨大的影響力,書寫了60萬字的人工智能精品技術(shù)內(nèi)容,生產(chǎn)翻譯了全球第一本深度學(xué)習(xí)入門書《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》,生產(chǎn)的內(nèi)容被大量的專業(yè)垂直公眾號和媒體轉(zhuǎn)載與連載。曾經(jīng)受邀為國內(nèi)頂尖大學(xué)制定人工智能學(xué)習(xí)規(guī)劃和教授人工智能前沿課程,均受學(xué)生和老師好評。

我們本著一種開放的心態(tài)來看看這次 OpenAI 的成功一 show,搖身變成世界 Dota2 單挑王。

Dota 曾給我們帶來了很多歡樂,而后推出的 Dota2 雖說玩家數(shù)量比不上 LOL,但其在國際上受歡迎程度非同小可。因此 OpenAI 拿這個也沒啥問題。

Elon Musk vs Mark Zuckerberg

就在前不久 Elon Musk 懟了 Mark Zuckerberg,說后者不知道現(xiàn)在 AI 達(dá)到什么 level 了,應(yīng)該就是在說這件事。(說到這里為 Facebook 的小伙伴們捏了一把汗,老板被懟了,由于自己的研究沒有到達(dá)最牛層次,鍋就得背了。)

OpenAI Bot 背后使用的就是深度強(qiáng)化學(xué)習(xí)技術(shù),這項技術(shù)被看作是實(shí)現(xiàn)通用人工智能[1]的一條光明大道。

深度強(qiáng)化學(xué)習(xí)技術(shù)是深度學(xué)習(xí)強(qiáng)化學(xué)習(xí)技術(shù)結(jié)合的產(chǎn)物。最早就是用在控制游戲上,那還是四年前,DeepMind 的團(tuán)隊設(shè)計了一個模型可以在幾個游戲上超過人類玩家。(這也導(dǎo)致了 Google 對 DeepMind 的驚天收購,4億英鎊)后面的故事大家也都知道了。發(fā) Nature,做 AlphaGo,擊敗歐洲圍棋冠軍樊麾,前世界冠軍李世石,再到現(xiàn)在的世界冠軍柯潔。這里的故事情節(jié)跌宕起伏,我們后面系列中會細(xì)細(xì)介紹。

DQN出現(xiàn)如同機(jī)關(guān)的開關(guān)被觸發(fā),眾多相關(guān)的算法層出不窮。最終我們將這些新出來的方法稱為深度強(qiáng)化學(xué)習(xí)技術(shù),該技術(shù)實(shí)現(xiàn)了感知和決策的打通。好像我們?nèi)祟惐淮蛲ㄈ味蕉}一樣,武功會上升幾個層次。因此現(xiàn)在這個方面的研究已經(jīng)成為大家關(guān)注的方向。在很多的重要人工智能學(xué)術(shù)會議(比如 ICML、NIPS、IJCAI 等)上,這個方向的 keynote、workshop 和 tutorial 均不斷地出現(xiàn),吸引了眾多科學(xué)家和工程師關(guān)注。

說了這么多基礎(chǔ)的理論歷史,我們回到這次比賽上。相比較于圍棋,Dota2 本身會有更多的不穩(wěn)定因素?fù)诫s,比如說里面的兵團(tuán)和建筑,難度在于更多不確定未知的因素空間疊加。

我們在觀看游戲的時候,DendiBoss 剛開始時好像并沒有將 Bot 放在心上,還和主持人熱情交互,也許這里對其發(fā)揮有所影響了吧。(人類有時候表面放松,但內(nèi)在緊張)但很快第一局經(jīng)過幾次較量后,Bot 逐漸地穩(wěn)定下來。

有人說 LOL 可不可以。當(dāng)然可以。由于 Dota2 和 LOL 是類似的,LOL 的 1v1 的 AI Bot 如果用深度強(qiáng)化學(xué)習(xí)技術(shù)的話,虐一虐人類 top1 也就沒啥問題了,因?yàn)樗麄儽举|(zhì)上是一樣的事情。

接下來在類似 Dota2 這類游戲上的挑戰(zhàn)就是多人配合的 5v5,這肯定是需要完成一系列的突破然后整合成一個整體后戰(zhàn)勝人類的。

最新消息,已有不少玩家找到了 Bot 的 bug,好像使用一些 trick 戰(zhàn)勝了 Bot。但我覺得這些“雕蟲小技”應(yīng)該不是我們關(guān)注的焦點(diǎn),不該拿這些沾沾自喜覺得人類還是厲害云云。技術(shù)之勢無法阻擋人類設(shè)計 AI 征服這類游戲的腳步。從這點(diǎn)上看,Elon Musk 的擔(dān)心不無道理,盡管目前看我們還沒有完全解決多人游戲的難題,但已經(jīng)在路上數(shù)十年之久了。

為何這么說,且聽下回分解。

人和機(jī)器的感情又加深了一點(diǎn)點(diǎn),因?yàn)榇蠹叶紩?Dota 2 了哈。以后可以帶幾個 AI 幫你推塔了~


  1. artificial general intelligence,又稱 strong AI,表示能夠完成一般任務(wù)達(dá)到或者超過人類平均水平的 AI ?

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

推薦閱讀更多精彩內(nèi)容