人工智能概念的提出已經(jīng)62年,如今終于到了茶余飯后常談?wù)摗?chuàng)業(yè)融資遍地開花的時候,吳軍老師的《智能時代》出版于人工智能的突破轉(zhuǎn)折年——2016年,就在AlphaGo打敗李世石的那一年,這真的是一本有理論有案例有邏輯有溫度的好書,值得分析式細讀。
作者吳軍老師是我在“得到”APP第一個付費訂閱的老師,曾經(jīng)是Google中日韓文搜索算法的主要設(shè)計者,原騰訊副總裁,著有《數(shù)學之美》、《浪潮之巔》和《文明之光》,現(xiàn)在是硅谷風險投資人。我對他的認識源于在他在得到APP開設(shè)的付費欄目”硅谷來信”,從硅谷資訊到Google前沿,從商業(yè)到科學、從歷史到人文,從精神導(dǎo)師到人生智慧,從讀書到旅行,從人性到愛情,無所不談,總覺得他就是當代成功跨界且靈魂自由的人,平實易懂的語言風格又覺得他就是個勤勞的高情商學霸。
《智能時代》談了些什么?
全書7個章節(jié)講述大數(shù)據(jù)發(fā)展的歷史、對社會方方面面的作用,機器智能的原理及發(fā)展歷程,近代以來人類思維模式的變革,大數(shù)據(jù)與商業(yè)的關(guān)系,未來智能社會各行各業(yè)的形態(tài)、以及可能帶來的憂患。
此書出版分類是經(jīng)濟讀物,我更愿意把它看成一本科普書,始終貫穿著科學的發(fā)展史,產(chǎn)業(yè)革命的變革史。看完整本書,從宏觀上我了解了技術(shù)革命,對社會變革的影響,微觀上我了解了谷歌,微軟等一系列的公司的變遷,商業(yè)模式,產(chǎn)品形態(tài)的變遷。
什么是大數(shù)據(jù)、人工智能?
只要是能夠被記錄的,不論存在于互聯(lián)網(wǎng)或者現(xiàn)實生活中,不論是UGC(用戶產(chǎn)生的內(nèi)容)還是專業(yè)資料庫,不論是文字還是圖像,不論真的假的,都是數(shù)據(jù),吳軍老師提到數(shù)據(jù)是人類文明的基石,并且用大量文明發(fā)展史論據(jù)做了證明。
要得到數(shù)據(jù)所透露的信息,就必須要找出數(shù)據(jù)的相關(guān)性,要找到相關(guān)性的,必須要用的到的就是統(tǒng)計學和數(shù)據(jù)模型,其實就是赫拉利提過的算法。讓計算機利用算法大數(shù)據(jù),就是人工智能。
人工智能的第一次提出是麥卡賽、明斯基為首的一批有遠見卓識的年輕科學家在1956年達特茅斯夏季人工會議上提出的。之后的二十幾年,幾乎沒有什么進展,直到20世紀70年代,IBM公司因為營業(yè)額過高,而被司法部進行反壟斷調(diào)查,所以IBM的發(fā)展方向從去搶占市場份額轉(zhuǎn)變到考慮如何讓計算機變得聰明。
當時負責這個項目的尼里克就開始研究,和他的同事在研究語音識別的時候,無意中開創(chuàng)了一種采用統(tǒng)計學的方法解決智能問題的途徑使用,因為這種方法需要使用大量的數(shù)據(jù),所以成為數(shù)據(jù)驅(qū)動的方法。一開始呢,他們研究人工智能是研究的語音識別和翻譯,因為互聯(lián)網(wǎng)沒出現(xiàn)的時候,那個數(shù)據(jù)不夠多,所以發(fā)展比較慢。到了20世紀90年代,互聯(lián)網(wǎng)興起之后,數(shù)據(jù)的獲得變得非常容易,所以數(shù)據(jù)的量變導(dǎo)致質(zhì)變。其中一個大的突破是從2005年2月份,NIST(美國國家標準與技術(shù)研究所)組織了一個測評,就針對計算機翻譯,機器翻譯這個領(lǐng)域的測評,谷歌比其他團隊領(lǐng)先了一大截。谷歌當時負責翻譯這一塊兒的是一個叫做奧克的博士。他是當時計算機翻譯領(lǐng)域最最牛的專家,其實他的方法跟其他研究機構(gòu)都差不多,但是它主要的區(qū)別就在于他用了大量的數(shù)據(jù),建立了一個模型,才產(chǎn)生了量變到質(zhì)變的飛躍。
從此以后,數(shù)據(jù)驅(qū)動的方法從70年代開始起步,然后21世紀由于互聯(lián)網(wǎng)的出現(xiàn)的數(shù)據(jù)量劇增,數(shù)據(jù)驅(qū)動的方法也越來越明顯,于是乎出現(xiàn)了大數(shù)據(jù)概念。
而真正定義機器智能的人是圖靈,著名的圖靈測試:一個裁判,同時坐在一個電腦和一個人的面前進行交流,如果這裁判無法辨別跟他交流的是人還是計算機,那么就證明這個計算機是具備人工智能的,計算機的奠基人,圖靈。
近代的兩次思維革命
作者提到思維是人類總結(jié)出的最重要的思維方式,也是現(xiàn)代文明的基礎(chǔ),那機械思維的形成可以追溯到古希臘,最具代表的是歐幾里得的幾何學和托勒密的地心說。這些思維是從歐幾里得開始的,迪卡爾一直到牛頓,牛頓的方法被概括為機械思維,它的核心思想的可以概括為三句話,第一世界改變的規(guī)律是確定的,第二,因為是確定的,所以可以用簡單的公式或者語言描述清楚,第三,這些規(guī)律應(yīng)該是放之四海而皆準的。也就是先有一個確定性,然后就是因果關(guān)系,遵循分析,找到原因,根據(jù)原因得到結(jié)果的思維方式。比如青霉素的發(fā)現(xiàn)。讀到這里的時候我想起李善友老師也曾講過牛頓的機械論,還有家庭鎮(zhèn)寶之書《歐幾里得》,雖然讀不懂,但拿來裝X還是很有威懾力的。
隨著我們對世界認知的越來越細之后,我們發(fā)現(xiàn)有很多問題都是不確定的,由于不確定性,我們無法按照機械論的方法思維去思考。因為沒有規(guī)律,通常用概率模型表示,在此基礎(chǔ)上,香農(nóng)博士建立起一套完整的理論,將世界的不確定性和信息聯(lián)系了起來,就是信息論。
信息論完全建立在不確定性的基礎(chǔ)上,要消除這種不確定性,就要引入信息,要引入多少信息,就要看系統(tǒng)中的不確定性有多大,這種思路成為信息時代做事的根本方法。作者舉了一個例子,就說互聯(lián)網(wǎng)廣告投放,比如說搜索類的廣告,因為它的確定性比較大,所以它的價格就貴。
香農(nóng)提出的第一定律和第二定律,它是信息時代的最基本定律,其作用堪比牛頓的力學定律。第一定律講的是對于信號源發(fā)出的信息,設(shè)計一種編碼,編碼的平均長度一定大于信息源的信息熵。舉個例子,就比如說編碼漢字用的多的漢子,那就編碼001,生僻的漢字,作為123455,那編碼的平均長度了以后一定會超過他的不確定性,別說平均長度是一二三四,也就是信息熵(不確定性)。香農(nóng)第二定律,通俗的講就是信息的傳遞速率不可能超過信息的容量。比如說互聯(lián)網(wǎng)發(fā)展過程當中,只有信息通道容量增加了,傳輸?shù)乃俾什拍苌先ィ覀儾拍軓拈喿x文字看的圖片,看了視頻再到高清視頻。
所以,為了確定不確定性,作者用信息去表示不確定型,然后用數(shù)據(jù)去表示信息! 大數(shù)據(jù)的本質(zhì)就是用信息現(xiàn)消除不確定性。過去是機械思維的方法論,現(xiàn)在是數(shù)據(jù)思維,過去找因果關(guān)系,現(xiàn)在找相關(guān)性。
大數(shù)據(jù)怎么改變商業(yè)?
在大數(shù)據(jù)的第一作用主要體現(xiàn)在相關(guān)性,時效性和個性化等,比如說谷歌和Netflix結(jié)合用戶場景進行關(guān)鍵詞推薦和影片推薦。大數(shù)據(jù)中一定可以找到找規(guī)律,比如稅務(wù)部門從稅收大數(shù)據(jù)可以檢查出偷稅漏稅的行為,司法部門可以從居住大數(shù)據(jù)中發(fā)現(xiàn)毒品藏匿地點,還有吳軍老師在谷歌利用大數(shù)據(jù)研究搜索方法等。
其次,大數(shù)據(jù)具備完備性,可以解決統(tǒng)計學采樣的問題,樣本可以等于全集。作者舉了例子他在谷歌的時候用窮舉法去設(shè)置網(wǎng)絡(luò)關(guān)鍵詞,利用詞干設(shè)置單詞的不同形式。
再次,大數(shù)據(jù)還可以把控每一個細節(jié),比如奢侈品品牌Prada在標簽植入芯片分析用戶行為數(shù)據(jù)的細節(jié)。
作者將歷史上一項技術(shù)帶動整個社會變革的事情概括為遵循一個模式,新技術(shù)+原有產(chǎn)業(yè)=新產(chǎn)業(yè):蒸汽機時代,現(xiàn)有產(chǎn)業(yè)+蒸汽機=新產(chǎn)業(yè);電氣時代,現(xiàn)有產(chǎn)業(yè)+電=新產(chǎn)業(yè);信息時代,現(xiàn)有產(chǎn)業(yè)+大數(shù)據(jù)=新產(chǎn)業(yè),現(xiàn)有產(chǎn)業(yè)+機器智能=新產(chǎn)業(yè)。舉個例子,第二次工業(yè)革命電的使用使得傳統(tǒng)傳媒業(yè)和通訊業(yè)興起,使得就是商業(yè)模式變成了打品牌,打廣告等等。信息時代的商業(yè)模式從原來的靠產(chǎn)品掙錢,轉(zhuǎn)變到用IT服務(wù)賺錢,原來制造設(shè)備的IBM, 諾基亞逐漸沒落,微軟谷歌等軟件服務(wù)等軟件服務(wù)公司興起,服務(wù)業(yè)最重要性就凸現(xiàn)出來。
不管現(xiàn)有產(chǎn)業(yè)加什么,現(xiàn)代人類社會的發(fā)展終究是科技的發(fā)展,計算機網(wǎng)絡(luò)的出現(xiàn)改變了各行各業(yè),在過去半個多世紀里,摩爾定律的應(yīng)用把我們帶到了如今的數(shù)字化世界。
大數(shù)據(jù)和智能革命存在較多技術(shù)挑戰(zhàn)
前面已經(jīng)講過數(shù)據(jù)的來源,再提煉一下:第一來源于電腦,其實就是電腦的生活軌跡,比如說電腦的運行日志等。第二來源是傳感器,就是基于一個芯片收集的數(shù)據(jù),比如攝像頭,各種定位器等等。第三來源就是過去,沒有被數(shù)字化存儲的那些信息圖書,檔案等。還有就是這個互聯(lián)網(wǎng)時代的UGC。在這個過程中,信息的存儲,傳輸,處理,在當今技術(shù)下還是有很多很多困難的:
第一就是數(shù)據(jù)的收集的困難,谷歌等等一些大公司在獲取這個用戶手冊收集數(shù)據(jù)的時候,有時候要拐好幾個彎曲線救國,比如借助什么游戲機啦,或者是互聯(lián)網(wǎng)機頂盒之類的設(shè)備獲取用戶數(shù)據(jù)。
第二是數(shù)據(jù)存儲的難度,因為數(shù)據(jù)的增長速度已經(jīng)是遠遠的高于存儲設(shè)備的發(fā)展速度,甚至會高于摩爾定律的增長速度,所以數(shù)據(jù)的存儲是具有相當大的難度,不僅需要考慮數(shù)據(jù)存儲節(jié)省空間,而且還需要考慮數(shù)據(jù)怎么樣便于使用。因為大數(shù)據(jù)的體量大,維度多,所以也就導(dǎo)致大數(shù)據(jù)的使用挖掘也同樣具有很大的難度,比如在過去的數(shù)據(jù)當中,要找到一個最大值是很容易的,但是在如今互聯(lián)網(wǎng)時代,如果要快速的找到電商行業(yè)銷量最好的產(chǎn)品,采用上千倍的處理器,也不可能是幾十秒內(nèi)完成的事情。
可以說,基礎(chǔ)設(shè)施決定上層發(fā)展,個人想起當年做經(jīng)營分析的時候,從35萬終端銷售數(shù)據(jù)中去尋銷量最高,且價格合適,且去除溢價最大被套利等因素等,通常因為excel的死機而崩潰,內(nèi)心煎熬又無力吐槽…繁雜的大數(shù)據(jù)處理,就像沙子中淘金一樣……所以理解了Google每天都有四成工程師在處理數(shù)據(jù)!確實需要更加完備的設(shè)備和智慧的算法,這些行業(yè)大拿實在值得敬佩!就是需要這種不斷構(gòu)建的基礎(chǔ),新知識才會產(chǎn)生,新的商業(yè)模式才會產(chǎn)生。在這個過程中數(shù)據(jù)的處理首先是篩選過濾,之后是機器算法,現(xiàn)在用到的算法大多是四十年前就是已經(jīng)成熟的人工神經(jīng)網(wǎng)絡(luò)算法,最大熵模型等,吳軍老師說道,一般的公司不可能有技術(shù)力量去開發(fā)這樣的大工程,所以最好的解決方式就是專門讓做機器學習的公司來提供服務(wù)。這一點我倒覺得可能一些大公司反而更加專業(yè),現(xiàn)在這個行業(yè)的技術(shù)走在前段的還都是頭部公司,當然作為創(chuàng)業(yè)風向,未來此類型的創(chuàng)業(yè)公司應(yīng)該層出不窮。
未來社會和產(chǎn)業(yè)的圖景
未來的農(nóng)業(yè):通過機器智能以及利用數(shù)據(jù)進行噴灌等技術(shù),會使農(nóng)業(yè)更加精準,水資源等得到更加充分的利用,或許家庭某個院子里都會出現(xiàn)噴水澆水的機器人。
未來的體育:依靠大數(shù)據(jù)去運營球隊和運營運動員的比賽成績而獲得勝利,比如說09年勇士一直一直在NBA,用六年的時間,從倒數(shù)第二到冠軍,利用大數(shù)據(jù)就是一個很好的案例,管理層使用大數(shù)據(jù)去制定戰(zhàn)略和戰(zhàn)術(shù),突破了傳統(tǒng)的兩分得兩分的方法而活得更高效的三分的方法,最終取得突破歷史性的冠軍。
未來的制造業(yè):機器人會取代勞動力。特斯拉就是一個典型的案例,機器人裝配汽車,特斯拉把自己定位為一家科技公司,而不是制造的汽車公司,他顛覆汽車行業(yè)所做的另一件事就是取消了存在的一個設(shè)計的汽車代理制度,他遵循產(chǎn)品生產(chǎn)和疏通的產(chǎn)業(yè)鏈,從設(shè)計生產(chǎn)一直到送到客戶手上,都是計算機在工作。
未來的醫(yī)療:主要解決三個問題,成本持高不下,醫(yī)療資源的不平衡,還有一些不治之癥。未來主要利用大數(shù)據(jù),通過模式識別和圖像理解進行影像分析,利用計算機智能幫助診斷,甚至機器人可以進行手術(shù),這些智能程序的成本通常不到人工的1%。讓計算機理解人的語言,根據(jù)化驗結(jié)果和別人的描述去診斷簡單的疾病,去解決醫(yī)療資源短缺的問題。治療可能通過大數(shù)據(jù)的分析,每一種疾病會有不同的藥品去醫(yī)治,因為不同的人會有因為個體差異而有不同的藥效。美國的谷歌的Calico公司和人類長壽公司已經(jīng)可以利用龐大的數(shù)據(jù)去找到很多疾病的根源,接下來就是修復(fù)衰老基因,那么未來人類的壽命也是有希望大大加長的。
未來的律師和記者、編輯等,大數(shù)據(jù)的機器智能會取代人類,做案例分析和寫稿。
未來的智能社會,各類社會資源都會得到更充分、更精準的利用,社會也更加精細化。區(qū)塊鏈就是社會精細化的一個典型案例,從每一件商品制造出來,直到被消費者購買,都可以進行完整的跟蹤。
科技發(fā)展總是讓人憂心
暫且相信以上圖景都會實現(xiàn),社會生活處處智能,公共設(shè)施和諧有序,生活服務(wù)更加精細,不再堵車,恐怖襲擊不再那么容易……也因此未來將是沒有隱私的社會,這也是吳軍老師在文中多次擔憂的。比如說前段時間facebook泄露數(shù)據(jù)的事件,還有航空公司利用個人隱私區(qū)掙的利潤的問題等等,活在互聯(lián)網(wǎng)時代的公民,數(shù)據(jù)的無處不再讓人活的多么赤裸裸。每一次技術(shù)革命,對社會造成的巨大沖擊,都需要經(jīng)過大約半個世紀甚至更長時間去消化。歷來是科學和技術(shù)的發(fā)展就是一把雙刃劍,甚至涉及到倫理的問題,也是社會發(fā)展演變當中不可避免的問題,但是社會終究要發(fā)展,要看人怎么規(guī)劃使用管理智能社會里的一切。這是一個人文主義的時代,這是新時代,日益增長的美好生活總會有不平衡不充分的地方,但是辦法總比困難多,不是嗎?
你會擔心被機器人搶掉飯碗嗎?
看完整本書,思緒會超越現(xiàn)實,會焦慮未來的個人發(fā)展,會擔心被機器人搶掉飯碗,會擔心被時代所拋棄。吳軍老師提到要做2%的人,才不被淘汰掉。需要說明的是,2%是基于美國勞工部的一個數(shù)據(jù)統(tǒng)計,據(jù)說在工業(yè)革命開始之后,機械化電氣化和化肥農(nóng)藥的使用,使得發(fā)達國家只需要2%到5%的人就能提供全部人口所需的食品。也就是說,2%的人在養(yǎng)活著其他98%的人,因為智能社會的沖擊,會帶來同樣的勞動力的恐慌及社會的恐慌。
能夠從事智能行業(yè)必然不錯,但其實只要有行業(yè)前端思想,不狹隘,不消極,哪怕從事的是傳統(tǒng)行業(yè),知道新技術(shù)怎么去改變自身存在的行業(yè)并為之積極努力,任何時候都不會被時代所拋棄,畢竟思維是自己的,認知也是自己的,就算時代想拋棄你的時候,也會問問你的意見。反倒是國家,在技術(shù)變革面前壓力空前大,時間上的緩沖,社會生活的平衡發(fā)展,社會公平性的權(quán)衡,都是空前的挑戰(zhàn)。