? 上一期,我們講述了人工智能的兩大核心是大數據和算法,今天,我們來介紹兩個知名的概念:機器學習和深度學習。
?
? 什么是機器學習?
? 我們用“啤酒與尿布”的經典商業案例來說明。
?
?
? 在上個世紀90年代,沃爾瑪超市已經是美國最大的零售企業,擁有大量的顧客資源。它采用了先進的計算機技術,隨時記錄著每天眾多顧客購物車中所挑選的商品明細。
? 有一天,沃爾瑪的技術專家發現了一個有趣的現象:經過大量的顧客購買記錄數據分析顯示,在購物籃中“啤酒”與“尿布”這兩件看上去毫無關系的商品會經常出現在一起;于是沃爾瑪嘗試把超市的啤酒和尿布兩種商品擺在相鄰的柜臺,結果實行以后銷售額得到了顯著提升。啤酒和尿布的故事也從此廣為流傳,成為了商業界和科技界津津樂道的成功典范。
? 后來經過調查才發現,這種現象出現在年輕的父親身上。因為在美國有嬰兒的家庭中,一般是母親在家中照看嬰兒,年輕的父親前去超市購買尿布;父親在購買尿布的同時,往往會順便為自己購買啤酒,這樣就會出現啤酒與尿布這兩件看上去不相干的商品經常會出現在同一個購物籃的現象。
? 在啤酒與尿布的案例中,沃爾瑪所使用的是一種叫做Apriori的機器學習算法,它可以揭示出了機器學習的核心思想:讓計算機程序隨著數據樣本積累,自動獲得精確的判斷和歸納能力。其中,提供給機器分析的大量數據,在專業領域叫做機器學習的訓練集;把現象經過分析、歸納出結果的過程,叫做訓練。
?
? 什么是深度學習?
? 深度學習是機器學習中的一個分支,它們之間的關系可以用下圖來展示。我們同樣用一個例子來說明。
?
?
? 如何教機器識別出一只貓?傳統的算法,是通過很多種特征的描述,來定義“貓”,比如大眼睛、有胡子、有花紋等;但即使制定這些規則之后,機器有時難以區分貓和老虎,甚至可能連狗和貓也分不出來。這就是傳統的人制定規則,機器學習的方法。
? 深度學習的方法是直接給機器數百萬張圖,告訴它這里有貓,再給它另外數百萬張圖,說這里沒貓,再通過這兩個訓練集訓練一個深度網絡。所謂深度網絡,你可以理解為一個通過多層算法,每一層各自分工進行計算,最后將各層計算結果合并為一個結論輸出的系統。例如深度網絡的最底層可以從訓練集中的原始像素開始學習,刻畫局部的邊緣和紋;中層可以把各種邊緣進行組合,描述不同類型的貓的器官;最高層可以描述整個貓的全局特征,最后三層綜合分析,判斷出圖中是否有貓存在。
? 深度學習則徹底顛覆了“人造特征”的傳統機器學習方法,不再需要大量人工設計特征;開啟了數據驅動的“自我學習”范式——由數據自提取特征,計算機自己發現規則,進行自學習。深度學習最大的優勢在于可以減少參數,因為它能夠重復利用中間層的計算單元;但這也要去它需要超強的計算能力,以及海量數據的輸入。
? 斯坦福大學的計算機博士曾用托爾斯泰的小說《戰爭與和平》來訓練深度網絡,每訓練100個回合,就叫它寫文章。100個回合后,機器知道要空格,但仍然有亂碼;500個回合后,能正確拼寫一些短單詞;1200個回合后,有標點符號和長單詞;2000個回合后,已經可以正確拼寫更復雜的語句。
? 我們之前介紹過什么是監督學習和無監督學習,深度學習更偏向于無監督學習中的一種(僅有少量的深度學習算法是監督學習)。它已經在現實中摧枯拉朽般地實現了各種任務,從Google AlphaGo,無人駕駛汽車,預防性醫療保健,到更好的電影推薦等,拓展了人工智能的領域范圍,未來將有希望替代監督學習成為人工智能的主流算法派別。
?
? 小結:
? 今天我們介紹了機器學習和深度學習。
? 機器學習是一類人工智能算法的統稱,它的核心思想是讓計算機程序隨著數據樣本積累,自動獲得精確的判斷和歸納能力。
? 深度學習是機器通過多層網絡計算,自提取數據特征,自己發現規則,進行自學習的系統。它未來將有希望替代監督學習成為人工智能的主流算法派別。
?
? 預告:
? 下一篇文章,我們會以AlphaGo為例子,介紹一下神經網絡和蒙特卡洛算法,如果你感興趣,請留意關注微信公眾號:智能加研究院
?