中國工程程院院士高文:從大數(shù)據科學到人工智能的遷移過程

中國指揮與控制學會
高文

11月6日,京東舉行JDD京東金融全球數(shù)據探索者大會,在全球范圍內尋求志同道合的伙伴共同探索大數(shù)據和人工智能在金融領域的最佳實踐。中國工程程院院士、北京大學教授高文應邀做會議演講,演講主題為“探索大數(shù)據,迎接人工智能時代”。

高文院士重點觀點如下:

要滿足三個條件,AI系統(tǒng)就不需要外部數(shù)據的支持。這三個條件是:集合是封閉的;規(guī)則是完備的;約束是有限的(不可以有遞歸)。

人工智能現(xiàn)在大概發(fā)展到“剛上小學”的階段,后面還有很長的路要走,人工智能至少還有10-20年的好日子過。
人工智能的發(fā)展,還是要靠學習、靠知其所以然的研究

一、大數(shù)據時代

我們現(xiàn)在這個時代確實是已經從大數(shù)據時代,移到人工智能時代。為什么這樣講呢?實際上這和大數(shù)據本身的內涵關聯(lián)性比較強。我們知道大數(shù)據本身的規(guī)模越來越大,從原來的EB級正在往ZB級發(fā)展,數(shù)據本身在不停地增加,我們稱為數(shù)據泛濫。這個數(shù)據泛濫包括很多,比如和零售相關有很多數(shù)據,再早一點是科學的數(shù)據,不管哪種數(shù)據都是和網絡關聯(lián)的,個人自媒體出來以后網絡數(shù)據又非常多。

以前大家都把它叫做大數(shù)據,最近有一個講法,大數(shù)據不是規(guī)模大,而是垃圾多的數(shù)據叫大數(shù)據,利用率低的數(shù)據。

比如視頻數(shù)據、網絡的個人數(shù)據。大數(shù)據本身的概念越來越大,但這個數(shù)據大了以后到底怎么使用怎么發(fā)展,最近一段時間大家都深入討論。

比如說數(shù)據是不是越大越好,是不是什么東西都一定要一個數(shù)據?回答是No。

最近有一個非常好的案例,Alpha Go下圍棋,以前是需要使用人類下圍棋的數(shù)據,同時自己嘗試了三千萬局的數(shù)據,最近的Alpha Zero不需要人類對弈數(shù)據了,自己會生產數(shù)據。現(xiàn)在我們就可以提問,

什么樣的情況不需要外部數(shù)據,自己生產數(shù)據就夠了?

我和有些專家討論,覺得,什么樣的AI系統(tǒng)不需要外部數(shù)據就可以戰(zhàn)勝人,實際上就是滿足三個條件:

1、集合是封閉的,不管你是狀態(tài)集還是什么集,你的集合是封閉的,我們知道圍棋集合是封閉的。

2、規(guī)則是完備的。也就是說下棋什么地方能下,什么地方不能下,這個規(guī)則是完全完備的,不能隨便更改。

3、約束是有限的,也就是說你在約束條件下,不可以遞規(guī),因為有了遞規(guī)之后往下推延就停不下來,而有限的時候就能停下來。滿足這三個條件,不需要外部數(shù)據,系統(tǒng)自己產生數(shù)據就夠了。所以可以想見,今后有很多的情況你去判斷這個人和機器最后誰能贏,滿足這三個條件機器一定贏,不管德?lián)?、圍棋,類似的情況很多了。

是不是所有的情況都是這樣?當然不是。

你可以看現(xiàn)在很多的交易、物流、零售,其實它有很多的條件一直在變,不滿足剛才的條件,這時候你需要很多外部的數(shù)據。有外部數(shù)據就夠了?當然不是,外部數(shù)據怎么用?它自己不會去產生一個用法,這個用法需要人,需要通過人工智能這些手段去用這些數(shù)據。

所以人工智能實際上就是從大數(shù)據科學到人工智能,非常自然的遷移過程。

二、人工智能時代

  • 人工智能發(fā)展階段

最近人工智能非常熱,熱到每一個人,每一個投資人都說我要投人工智能或者我要干人工智能,這件事好不好呢?不知道。但我們可以看看歷史,以史為鑒,可以知道很多事情,人工智能發(fā)展到去年剛好是60年。我們看看60年的發(fā)展實際上是經歷了三個階段:

第一個階段20年,1956年到1976年。第二個階段,從1976到2006年,30年,2006年是第三波浪潮剛剛開始,它會持續(xù)多長時間?不知道,可能25年,可能35年,也可能是40年。當然按照20、30,下面到底是40年、30年甚至60年都不知道。但你知道這個規(guī)律就應該知道人工智能絕不是已經把所有的事情做完了,

如果用人的一生來比喻,人工智能其實現(xiàn)在大概剛上小學,有的還不到小學,所以現(xiàn)在它的歷程可能只是1/10,后面有很長的路可走。

在人工智能路上有很多關鍵人物不能忘記,圖靈不能忘記,計算機領域特別重要的一個獎圖靈獎,其他學科有諾貝爾獎,諾貝爾時代沒有計算機,后來有了計算機以后,大家就想計算機界也應該設一個和諾貝爾獎相當?shù)莫?,這個獎就是圖靈獎,現(xiàn)在全世界一共65個人得了一個圖靈獎,姚期智教授,是華人當中唯一得到圖靈獎的。

在人工智能領域得到圖靈獎的一共8位,馬文·明斯基(1969),約翰·麥卡錫(1971),艾倫·紐厄爾(1975),赫伯特·西蒙(1975),愛德華·費根(1994),拉吉·瑞迪(1994),萊斯利·瓦倫特(2010),猶大·伯爾(2011)。整個計算機科學領域,

人工智能實際上是插在寶塔尖的1/8。

萊斯利·瓦倫特,猶大·伯爾,后面這兩位是2010年和2011年獲獎,都是和概率推理、概率學習、因果學習有關的兩個學者。

總體來說,人工智能到現(xiàn)在有三個主要的代表性的學派,哪三個呢?

第一個是用邏輯的方法做人工智能,通常我們把它叫做邏輯主義學派,或者叫做符號主義學派。

第二個是以連接主義為基本工具,就是用神經元網絡,今天的深度學習就是它一個典型的代表

第三個學派,從搞控制論的人,比較主張的一個學派,更多的是做這種自適應和進化、計算。這三個學派里各有千秋,不能說哪個好哪個壞。

什么叫人工智能?

我們今后可能就是人類智能和人工智能的一個對決,其實人工智能是人類智能的一個計算機的實現(xiàn),從對決的角度,它永遠不可能超過人類智能,只是說在某一個特定的方面它可能勝出,但從智能本身它沒辦法勝出。

我們看看智能的定義,其實智能有很多方面,包括邏輯能力,語言能力、空間能力、感知能力,包括音樂感知的能力,肢體的控制能力。后面這幾個是比較難的,包括人的內省、自我反省,包括人際關系的能力,包括自然探索的能力,比如發(fā)現(xiàn)一些新的東西,完全沒有任何線索,你能想出我要做這個,我把這個問題解決掉。自然探索的能力,包括圖像、圖形的感知能力。

其實智能分為這九個能力,而現(xiàn)在的人工智能在這九個方面只有三個做的還可以,有六個方面還相當?shù)倪h,

所以我們說現(xiàn)在的人工智能要想挑戰(zhàn)人類智能,路還很長。

為什么我們說人工智能60年呢?因為1956年當時有一個里程碑式的會議,達特茅斯會議。當時人工智能這幾個元老還很年輕,他們集聚到一起開了兩個月的會,討論怎么樣讓機器具有人的智能、定出了人工智能的最終目標以及什么叫人工智能?,F(xiàn)在看起來1956年定義的人工智能的白皮書,到現(xiàn)在一點都不過時。所以我們說年輕人還是非常厲害的,三四十歲的年輕人,在計算機剛剛興起的時候,連人工智能概念都還沒有,他們就提出來我們要怎么做這個東西,這是非常了不起的一件事,現(xiàn)在看起來確實他們做的是對的。

這次會議開了以后,全世界很多學校都開始跨入到人工智能熱潮當中,典型的像斯坦福大學、CMU、MIT、哈佛大學很多人都在做相關的這些研究,那個階段大家采用的技術手段,主要是邏輯主義或者符號主義。

什么叫邏輯或者符號呢?實際上就是他認為一切的推理,我都可以用邏輯演算的方式來實現(xiàn),我只要定義了整個邏輯演算的體系,做一個規(guī)則,就可以完成任何事,可以進行推理、數(shù)學證明,可以創(chuàng)作、奏樂等等。

其實我們小學就學過代數(shù)運算,邏輯也是一種運算,但它不是用的代數(shù)運算,而是布爾運算,和代數(shù)運算非常接近。有了這個運算就可以對它進行推理,推理你要使用一個工具,他們使用了演繹推理的工具。

我們知道到現(xiàn)在為止,最主要的自然科學的定理使用的都是演繹推理的方式來完成的。

比如說亞里士多德的三段論體系就是非常典型的演繹推理,歐幾里得的幾何學也是用這樣完成的,牛頓力學,麥克斯韋、愛因斯坦全都是用演繹定理推出來的。

所有演繹推理的基礎是滿足三段論方程,什么叫三段論,

我有一個大前提,這是一個一般的原理,我有一個小前提是我要研究的特殊情況,根據大前提、小前提得到一個結論,這個結論是根據一般情況,對特殊情況做出一個判斷,這就完成了演繹推理,這就叫三段演繹推理。

所有的基礎邏輯的方法都是這樣做的,為了做這個當時設計了很多的人工智能語言,用這種語言可以寫人工智能的方程,機器就可以去證明。

當然這聽起來很好,而且第一次浪潮,大家都認為十年之內人工智能一定可以完成很多事,但一直到1976年前后,大家發(fā)現(xiàn)一開始定的那么高調的東西絕大多數(shù)都實現(xiàn)不了,加上當時有人落井下石。1973年有一個英國人發(fā)了一個報告,給AI撥一大盆冷水。

他把AI研究分三類系統(tǒng),

A是指自動機、B是機器人、C為中央神經系統(tǒng)。自動機和中央神經系統(tǒng)研究是有價值的,但進展太慢;機器人的研究毫無價值,而且非常令人失望,所以他建議把所有的機器人研究都取消掉;A和C因為它本身令人失望,所以也是非常低

調。這個報告出來以后各國政府全部都把對人工智能投入的經費砍掉,馬上就進入了嚴冬。所以1976年實際上是人工智能第一次的嚴冬的到來。

1976年之后盡管沒有經費,但學者的可愛之處是給錢也做,不給錢也做。因為做邏輯的,前面已經把自己的體量拉的很大。當時做神經網絡的,基本上沒有得到什么錢,所以本身就是教授帶幾個學生在那玩,這個領域雖然面臨寒冬了,但對他來講沒有變化,反正盛夏的時候沒有錢,寒冬的時候還是沒錢,所以帶著學生繼續(xù)玩。

這一玩玩出花樣來,1976年開始有很多做神經元網絡的,不停的寫東西、發(fā)東西,一直到1986年出來一個讓人眼睛一亮的東西,這個東西叫BP算法(即誤差反傳網絡)。以往的神經元網絡只能做非常小的事,做不了大事。但這個東西出來以后可以做大事了,所以就推動了這個領域發(fā)展的速度非???。

但它也只能解決一些問題。一開始人們也是期待要解決很多問題,但遙遙無期,到最后又來了第二次的低谷,包括日本第五代機的失敗,當時在斯坦福大學要建一個知識百科全書的項目都失敗了,使得第二次人工智能又跌入了低谷。

第三次是從2006年開始的,現(xiàn)在是人工智能的三個大牛,一位在多倫多大學Geoffrey Hinton,一位在蒙特利爾大學Yoshua Bingeo,一位在紐約大學Yann LeCun,這一年分別發(fā)表了三篇文章在講一件事。這個文章出來了以后,當時大家并不知道這個東西要怎么用,這個東西被誰給激活了?李凱和李飛飛做的ImageNet,主要操刀是李飛飛做的。

ImageNet是一個全球的圖像識別比賽,在2012年以前都是用常規(guī)的方法,2012年開始有一個參賽隊用了這個方法,比別的隊錯誤率馬上降低了一半。到2013年其它方法全部退出,全都是深度學習,2014年不停地改進。所以可以看出2015年的時候錯誤率已經降的非常多,深度學習的網絡也非常多。到2016年的時候幾乎做到不光人沒法比,錯誤率已經低到不需要再做了,所以李飛飛選擇2017年宣布這個比賽停止,不再做了,因為其實已經沒有太大促進意義了。

所以今天的第三輪,由于深度學習,由于剛才所說的產業(yè)界的熱情參與,我們產生了很多新的企業(yè),有很多新的機遇,這是非常好的事。

  • 人工智能發(fā)展機遇

在這個機遇下國家干了什么?國家有一個中國人工智能2.0的發(fā)展戰(zhàn)略研究,這是中國工程院一起來搞的,今年發(fā)布了一個重大研究計劃,這里面主要是做五個關鍵技術和一批應用。(12月14日,億歐將在北京舉辦
2017AI產業(yè)應用峰會,科技部撰寫《中國人工智能2.0規(guī)劃編制》的專家李修全博士將出席現(xiàn)場。)
這五個關鍵技術,包括

大數(shù)據智能,這和前面講的大數(shù)據關聯(lián)性非常強。
第二個方面是群體智能,依靠群體的力量推進智能的研究。
第三個是跨媒體智能,要把聲音、圖像、文字、自然語言所有這些東西聯(lián)結在一起來研究智能,這是跨媒體智能未來所希望達到的目標。
第四個是人機混合增強智能,人和機器混合起來怎么樣讓智能更高能力更強。
第五個是自主智能系統(tǒng),其實就是無人機。我們有五個支柱,上面是應用,下面是基礎支撐。

那么這樣一個輪廓,在國家戰(zhàn)略上來說已經進行了非常圓滿的布局,這個是不是夠了?其實還不是。如果看整個人工智能學科的輪廓,包括計算機視覺、語言識別、自然語言、人機交互、機器人學習等等這樣的方向,這些方面目前大的布局是沉浸到應用這個方面。

涉及到人的九類智能,我們在邏輯語言文字和圖形圖像

來說現(xiàn)在已經做的相當不錯,中間六類還是有相當?shù)木嚯x需要探索。

總結一下,歷史總是這樣螺旋前進的,人工智能的三次浪潮也是從符號主義到連接主義。這個符號主義到現(xiàn)在為止已經有30多年比較寂寞了,但它作為人類智能的一個高等抽象,應該是發(fā)揮作用的,所以怎么發(fā)揮作用,這個是未來大家可以慢慢觀察。

連接主義,就是神經元網絡、深度學習,目前是非常大行其道的,

但怎么樣解決小數(shù)據甚至沒有數(shù)據的學習?實際還是有相當大的挑戰(zhàn),特別是很多的學習結果是不可解釋的,這是最大的挑戰(zhàn)。

行為主義是注重自適應和進化,這是從人從猴子演化過來,它可能更接近。它怎么樣在學習方面做得更好,還是需要探索。

不管是企業(yè)、國家投資,大家利用好天時地利要好好干一場。我想人工智能肯定至少還有10年到20年左右的好日子過,大家珍惜這個機會。當然人工智能既然是一個少年,少年主要的成長靠什么?靠學習,靠知其所以然的學習的研究,中國下一代人工智能也會在這個方面進行一些布局,知道今后的方向,也許對在座各位會有點幫助。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,702評論 6 534
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,615評論 3 419
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事?!?“怎么了?”我有些...
    開封第一講書人閱讀 176,606評論 0 376
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,044評論 1 314
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,826評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,227評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,307評論 3 442
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,447評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經...
    沈念sama閱讀 48,992評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,807評論 3 355
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,001評論 1 370
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,550評論 5 361
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 44,243評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,667評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,930評論 1 287
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,709評論 3 393
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,996評論 2 374

推薦閱讀更多精彩內容