人工智能的未來 - Hassabis (峰哥summary)
/ 文:@峰哥何峰 /
最近看了一些有關【深度血系】(Deep Learning)的講座視頻。原本想和女朋友討論(她是倫敦大學學院/UCL 認知神經學畢業的,要說還算是 DeepMind 幾位創始人, 也就是阿爾法狗 AlphaGo 的締造者,的校友)。但是她是在提不起興趣看這些講座。于是我把這些講座 summary 整理出來,作為和她探討的基礎,順便也分享出來。說明:這些不是講座完整內容的 summary,而是我感興趣的部分,同時伴有一些我的補充。
Demis Hassabis - The Future of AI (人工智能的未來)
演講者 Demis Hassabis 是 DeepMind 創始人&CEO。Hassabis 本人出生于倫敦,本科畢業于劍橋,后在從 UCL(倫敦大學學院 University College London)獲得 cognitive neuroscience 博士學位。本次講座是在牛津大學。講座發生的時間是 2016年 2月,也就是在 AlphaGo 跟李世石對局之前。Hassabis 在講座中也著重介紹了 AlphaGo。以下是我從講座中提煉出的內容:
1、DeepMind 的目標?是 1)先解決人工智能,然后 2)通過人工智能解決人類一切其他問題,比如科研、醫療、環境問題。Hassabis 本人尤其對引入人工智能來協助科研非常感興趣和抱有極大期許。人類所積累的知識已經無比廣博和復雜,Hassabis 感覺僅僅再憑人的血肉之軀來學習、組織、推進這些知識已經不能夠勝任。
2、Reinforcement Learning
所謂 Reinforcement Learning,是 AI 系統學習的一種方式。這種學習方式很類似人類嬰兒的學習方式:AI 系統觀察它所在的環境,采取一個行為(action),然后觀察結果。在這樣不斷的反饋中學習。
為什么 DeepMind 選取了這個研究框架?因為研究表明,似乎動物和人類就是這么學習的。這給了 Hassabis 以信心:如果生物可以通過 reinforcement learning 實現智能,那么機器應該也可以。
峰哥 comment:?
在機器學習中,曾經非常流行的一個方法是 HMM (hidden markov model)。這是通過統計學的模型來實現如語音識別等。當時也取得了非常大的成功,但之后就陷入了瓶頸。等到 2000 年左右,峰哥在學習人工智能的時候,雖然這還是當時熱門的技術,但是已經感覺后繼乏力。博士生們在用各種奇技淫巧,只為了把準確率提高半個百分點。
人類自己在做語音識別、文字翻譯等工作的時候,似乎并不是通過復雜的統計學模型去完成,所以如 HMM 這樣的方法,雖然在剛開始獲得了一定成功,很有可能最終是個死胡同。就好像通過爬樹來實現登月:剛開始一直有穩定的進展,直到有一天,突然不再 work.
電腦圍棋也經歷的類似的過程:蒙特卡洛方法(也是統計學、概率論中的一種方法)在幾年前進入電腦圍棋后,立刻獲得巨大成功。電腦圍棋的水平從以前的不可理喻,很快成長到業余高段的水平。這個峰哥特別有感觸,因為我跟電腦下棋,正好從全面碾壓到被碾壓,當時的心情跟李世石現在估計差不多。但是,之后似乎水平就達到一個瓶頸。似乎【蒙特卡洛】這棵樹,也爬到了盡頭。如果需要突破,需要另有創新。人類在下圍棋的時候,明顯也不是通過【蒙特卡洛】這樣海量窮舉的方法來進行的。難道要達到人類圍棋水平,真的必須要模擬人類思考圍棋的方式?
另一方面,人類很多工程上的成就,也并非通過【仿生】來實現的。汽車飛機,在速度、距離上已經超過了飛禽走獸,但是其工作原理跟后者幾乎沒啥交集。實際上,人類最初對于飛行的嘗試走了很大彎路,就是因為太禁錮在【仿生】的思路中。
人工智能最終會是通過模仿動物和人類來實現,還是另外走出一條不同的路?大自然已經通過進化找到了解決智能的一個解(我們就是成果)。這會是唯一解嗎?
3、Grounded cognition
"A true thinking machine has to be grounded in a rich sensormotor reality"
上面是 Hassabis 原話。一個類似的概念是 embodied AI,即,要構建一個有智能的 agent,不能僅僅是通過軟件,而是需要有一個身體,能夠通過各種 sensors 感知自己所在的環境。不意外的,這個領域的研究人員很多在從事機器人的研究。DeepMind 則是選擇了虛擬世界。但其背后的意思是一樣的:智能是需要建立在與自己所在環境互動的基礎之上。
4、機器學習打游戲
DeepMind 的一大成就,是開發出了能夠自己學習打游戲的系統。這套系統的令人驚異在于,它能夠通過觀察圖像,學會玩各種不同的游戲。請注意,這是同一個程序,自學了各種不同的游戲。這些游戲有著迥然不同的規則,視覺輸出。在這個游戲的世界中,可以說 DeepMind 已經建成了 general AI(這是不是可以翻譯成[通用AI]?)。
DeepMind 的這個成就,被發表于 2015年 2月 Nature 雜志(http://www.nature.com/nature/journal/v518/n7540/full/nature14236.html)
5、Neuroscience-inspired AI
DeepMind 在決定研究方向的時候,會從人腦的結構中獲取靈感,包括人腦的算法、representation、architecture。
6、AlphaGo 是如何養成的
首先說一點:AlphaGo 的養成過程中,并沒有用到專業棋手的數據,而是從網上下載的業余高段棋手數據。具體步驟如下:
1、用網上下載的 10萬局業余高段棋手對局,訓練出了一個程序(叫做 policy networks, 咱們姑且叫它 P1 吧)。所謂訓練,就是猜下一手棋,也就是模仿業余高手的對局。
2、讓程序自己跟自己下上百萬局對局,從自己的成功和失誤中學習。這個訓練結束后,成為程序 P2。P2 對局 P1 有 80% 的勝率。
3、再之后,P2 不再學習,而是自我對局 3千萬局,成了一個巨大的數據庫,里面包括了每一步棋,以及最后的輸贏。再用這個數據庫,訓練了另一個程序,叫做 value networks,姑且管它叫 V 吧。V 的功能是判斷此時棋盤上的局勢,各方勝率。
AlphaGo 對局的時候,是 P2 和 V 并用。P2 通過棋盤上的情況,給出下一步走法的各種可能性,以及對于的概率;V 則來判斷各種走法之后,盤面的形式。
Hassabis 有個很好的形容:
P2 給出最佳的幾個走法,其作用是降低搜索寬度;
V 則是迅速給出局勢的判斷,其作用是降低搜索深度。(比如,不需要做大量的蒙特卡洛演算來判斷局勢。)
======
簡單心理平臺?專注于提供靠譜心理咨詢?和?相關?服務??。
?了解更多,請訪問 jiandanxinli.com?
加入我們!戳 =>http://www.jiandanxinli.com/pages/37
微信公號:@簡里里