人工智能時代,我們能做什么?

姓名:李濤

學號:17021211100

轉載自http://mp.weixin.qq.com/s/tGMppO0KXOP_5nWVr5suZA有修改

【嵌牛導讀】:微軟亞洲研究院常務副院長芮勇在《新智元:機器+人類=超智能時代》書中暢想人工智能發展6大階段,詳細介紹微軟語音識別、圖像識別、牛津計劃等多項人工智能項目。芮勇指出,越來越多的科技公司都在開放或開源核心的人工智能技術。微軟已經開放了很多人工智能技術,包括我在上文中提到的牛津計劃,還包括Azure Machine Learning,以及不久前亞洲研究院開源的分布式機器學習工具包DMTK。我們不僅僅是開源某一個具體的算法,我們其實開源了一整套的分布式訓練框架,使得任何別的機器學習的算法能在一個更大規模的分布式的系統上更加便利地進行計算。人工智能時代不能只憑個人,研究者、企業、機構要溝通合作,實現技術的指數爆炸。

【嵌牛鼻子】:人工智能

【嵌牛提問】:人工智能對于生活的影響?

【嵌牛正文】:

C新智元推薦

來源:《新智元:機器+人類=超智能時代

【新智元導讀】

芮勇博士現任微軟亞洲研究院常務副院長。在此之前,芮勇博士在美國微軟總部工作了7年,先后擔任微軟亞太研發集團首任戰略總監、研發總監,以及微軟亞洲工程院副院長及微軟亞太研發集團中國創新孵化部總經理。芮勇在微軟的17年涵蓋了企業研發的四大支柱:戰略制定、基礎科研、創新孵化及產品開發。芮勇是國際電氣電子工程學會會士(IEEE Fellow)、國際模式識別學會會士(IAPR Fellow)、國際光學工程學會會士(SPIE Fellow)和國際計算機協會杰出科學家(ACM Distinguished Scientist)。芮勇擔任國際多媒體權威學刊IEEE Multimedia Magazine主編,他還是許多一流國際會議的組織委員會和程序委員會主席。

微軟亞洲研究院的人工智能2015

人工智能的春天又回來了。

近幾年,大數據、機器學習和云計算等新興技術的發展讓人工智能的影響力日益壯大,業界關于人工智能的討論和嘗試也非常多樣。身為在計算機領域探索多年的研究人員,我認為這一現象非常鼓舞人心,我們誠然生活在一個“技術的黃金時代”。

人工智能的英文是Artificial Intelligence,簡稱AI。1956年,在達特茅斯學院舉行的一次會議上正式確立了人工智能(Artificial Intelligence)的名稱,以及研究領域和任務。這次會議影響深遠,該會議的組織者包括馬文·明斯基(Marvin Minsky)和約翰·麥卡錫(John McCarthy)等人,他們和這次會議的其他與會者們一起成為了人工智能最早的一批研究先驅。

今年是2016年,距離達特茅斯會議已經過去了整整60年。中國古代紀年法中,用十天干和十二地支相組合,60年便是一個輪回,稱為六十甲子。人工智能在誕生之后經歷了黃金年代,經歷了20世紀70年代中后期的低谷,經歷了短暫的繁榮,也經歷了人工智能的寒冬。如今,人工智能再次回春,六十甲子一輪回,因此對于我們來說,2016年更是人工智能技術的一個新的開端,我最大的心愿便是在2016年這個新輪回開始的第一年,能看到劃時代的研究進展和突破。

如今,人工智能已經不是一個僅屬于研究機構和學者們的概念,而是逐步進入我們的生活,這些技術大多數時候默默地站在幕后,悄無聲息地改善著人們的計算體驗。過去的2015年,在微軟眾多對外發布的產品和服務中,我們都能找到人工智能的影子,這也離不開微軟亞洲研究院在計算機基礎研究領域日復一日的耕耘,用一次又一次的研究突破,用開放的心態積極與社會各界展開合作,一起共同推動整個計算機行業的技術進步與革新。

人機交互的第一入口:語音識別

人工智能都可以幫助人做些什么呢?長久以來,語言一直都是人與人之間交流的障礙,那么能否讓人工智能充當人與人之間的翻譯呢?微軟推出的Skype Translator 實時語音翻譯系統就成功滿足了這一類需求。

早在2012年10月25日,在由微軟亞洲研究院主辦的第十四屆“二十一世紀的計算大會”現場,我們首次公開演示了微軟實時語音翻譯技術。時任微軟研究院全球負責人的Rick Rashid在用英語演講時,現場的國內觀眾們卻借助了神奇的實時語音翻譯工具,聽到了用Rashid的原音講述的漢語普通話。當時的語音識別系統在演示中實現了小于7%的誤差率,幾乎與真人做字對字筆錄時的水平相當。

這次展示很明確地預示了深層神經網絡語音識別和實時語音翻譯時代的到來。隨后,這一技術原型便迅速被轉化成產品,成功應用到了Skype Translator中。在微軟亞洲研究院的團隊和美國的同事們的密切合作下,2015年4月,Skype Translator 實時語音翻譯的中文預覽版登錄中國,讓英文和中文普通話之間的實時語音對話變為現實。

在Skype Translator上我們可以看到深度學習技術對語音識別準確度毋庸置疑地提升。如今在較為理想的環境中,語音識別的準確度已經在95%以上,與人類的識別能力相差無幾。但對于語音識別領域的研究來說,仍有一些亟待解決的問題。當計算機處于較為嘈雜的環境,或是麥克風收音效果較弱的情況下,識別準確度便大大降低。

一個被稱為“雞尾酒會效應”的問題能夠很好地描述這種情況。如果我們正在參加一場雞尾酒會,和七八個人同時交談,那么如果我們想主要聽某一個人的發言時,我們人類就能自動過濾其他人的發言,讓我們的注意力集中在這個人的發言內容上。可是當計算機處于這種環境下時,面對多個聲音交織的情況,想要辨別出特定某人的聲音并識別出來還是十分困難的。

其實,語音識別只是一個開始。計算機把人類的語音識別出來,將音頻信號轉化成文字信號的這個過程必然意義重大,但這并不代表計算機真正理解了這句話的意思。因此語音識別的下一步便是對語義的理解。我所提到的這個語義理解可能比我們通常所說的自然語言理解層次更高一些、難度更大一些。因為面對同一句話,如“我想靜靜”或者“他要請我吃飯”,不同的語調、語氣、重音都會帶來不一樣的理解。因此我說的語言理解是包括從語音到語義,直至理解句子的言外之意這一整套過程的,這在技術實現上還有一條很長的路要走。

說起語音識別,其實不僅是微軟,行業內各大公司都會把它放在一個首要的基礎位置上。如果說實現人工智能是我們的最終目標,那么語音識別技術很可能就是人工智能的一個關鍵入口。為什么我會這么說呢?對于技術公司來說,成為平臺型公司一直是努力的目標。例如,操作系統就是一個很好的平臺。時下我們也能看到一些很好的平臺,如電商平臺、搜索平臺,還有人與人之間交流的平臺等,與之對應的國內有BAT,國外的微軟、谷歌、Facebook、亞馬遜,都擁有自己的核心平臺。那么下一個平臺會是什么呢?

我認為,人工智能時代,一個人工智能助手將會成為一個很好的平臺,就像《星球大戰》中的BB-8,或者鋼鐵俠中的賈維斯(Jarvis)。人們與人工智能助手最常見的交互方式就包括語言的交互。那么想要做好人工智能助手,語音識別和自然語言處理可能就會成為這個平臺入口的核心。

借一雙慧眼:計算機視覺

近年來,深層神經網絡的復興為計算機帶來的革命突破不僅是語音識別,還有計算機視覺。人類所獲取的外部信息70%都來自于視覺,人類與周圍世界的溝通和交互極其依賴圖像。當計算機也能“睜開雙眼”看懂世界,計算機離智能也就更近了一步。

那么,目前計算機視覺系統有多精確呢?2015年1月,微軟亞洲研究院的一個四人計算視覺小組成員在ImageNet計算視覺識別挑戰賽中便實現里程碑式突破,計算機識別物體的能力首次超過人眼,系統錯誤率已經低至4.94%。而在此前同樣的實驗中,人眼辨識的錯誤率大概為5.1%。

ImageNet計算機視覺挑戰賽由來自全球頂尖高校和公司的研究員組織舉辦,近年來已經成為計算機視覺領域的標桿,其比賽結果總能十分直觀地反映出計算機視覺這一熱門領域中各研究機構的研究進展和突破。在ImageNet比賽中成功登頂并超越人類,在計算機視覺研究上意義重大。

當然研究員們并不僅以超越人類的識別能力為目標。到了2015年12月,在微軟亞洲研究院首席研究員孫劍的帶領下,這個四人研究小組再次做出突破,以絕對優勢獲得圖像分類、圖像定位及圖像檢測全部三個主要項目的冠軍,該系統識別錯誤率已經低至3.57%。同一時刻,他們在另一項圖像識別挑戰賽MS COCO(Microsoft Common Objects in Context,常見物體圖像識別)中同樣成功登頂,在圖像檢測和圖像分割項目上擊敗了來自學界、企業和研究機構的眾多參賽者。

這兩個挑戰賽的側重點各有不同:ImageNet 傾向于評測識別圖像中顯著物體的能力,而MS COCO傾向于評測識別復雜場景中各類物體的能力。能同時在兩個世界級的比賽中獲得冠軍,足以說明研究組的技術突破是通用的,那么是何種技術讓他們在計算機視覺領域中的研究屢獲突破呢?

答案是研究員們構建了一個152層的深層殘差網絡(Deep Residual Networks),他們還使用了一個全新的“殘差學習”原則來指導神經網絡結構的設計。殘差學習最重要的突破在于重構了學習的過程,并重新定向了深層神經網絡中的信息流。殘差學習很好地解決了此前深層神經網絡層級與準確度之間的矛盾。這個深層殘差網絡顯示出了非常強的通用性,藉由此次的突破,相信會有更多的研究人員們能夠從中汲取靈感。

聚沙成塔:牛津計劃,開放的人工智能技術平臺

假設我們現在有一位開發人員,他想開發出一個健身類的應用,他有很多新奇的想法,想要開發出很多有趣的功能放進自己的應用中,如從照片中識別出用戶,或者理解鍛煉者的語音指令。但是這些多樣的功能都只能通過復雜先進的機器學習來實現,而這位開發人員卻沒有實現它們所需的時間或資源。在這個時候,如果有一個這樣的智能平臺把這些技術開放出來就會非常高效。

微軟在人工智能、語音識別、計算機視覺上投入巨大,并已經在相關領域取得了很多優秀的研究成果,我們也非常想把一些核心技術放在這樣一個智能平臺上,使得第三方的開發者更容易站在巨人的肩膀上,而不再是從零開始,他們可以更專注于他們想開發的應用,而人工智能的核心技術就直接從我們的平臺上使用就可以了。現在我們開放出了這樣的一個平臺,我們稱為Project Oxford,牛津計劃。

微軟牛津計劃是由一系列基于云的機器學習相關的API、SDK和相關服務等組成,自2015年4月推出以來,這個平臺目前已經涵蓋了很多人工智能的方向,包括視覺、語音和語言等。在視覺方面,我們有對圖形的理解、分析和處理。有對人臉的識別、檢測、驗證等,甚至包括人臉面部情緒的分析。此外還有視頻中的人臉追蹤、運動檢測等。在語音方面,有語音識別、聲紋識別。在語言方面,有拼寫檢查、語言理解等功能。

2015年,有一個火爆全球的“顏齡”測試應用叫“How-old.net”,它會基于你上傳的照片,利用人臉定位技術檢測照片中人臉的特征點,根據特征點猜測人的顏齡。這個應用其實就是微軟的兩位工程師利用牛津計劃中人臉識別API開發的,整套解決方案也就花了幾個小時的時間,代碼也才不到20行,搭建起來十分迅速。于是在網站建成后的幾小時時間里,成千上萬的用戶瘋狂傳播,席卷全球,它的受歡迎程度也完全超乎我們的想象。牛津計劃中的面部表情分析也十分有用,它能讓計算機學會“察言觀色”,觀察出你面部表情的變化來計算出你情緒的變化,開發人員就可以基于此輕松開發出許多有趣的應用了。

微軟牛津計劃自2015年的Build開發者大會首次推出以來經歷了多次更新,更多的功能被逐步添加進來,這其中也少不了包括微軟亞洲研究院在內多個技術團隊的支持。2016年3月在Build開發者大會上,也推出了更多的功能更新。

聚合的智能:微軟AI姐妹花小冰小娜

1991年,微軟研究院創立時,比爾·蓋茨希望研究院能夠致力于讓未來的計算機能夠看、聽、學,能用自然語言與人類進行交流。這是一個與AI研究關聯緊密的夢想。二十多年來,我們時刻在為之努力。當計算機對人類多種感官的模擬不斷完善聚合,一個聚合智能的人工智能助手就這樣誕生了。

在微軟,有一對人工智能姐妹花叫小冰和小娜。小冰是微軟(亞洲)互聯網工程院開發,集合了微軟亞洲研究院眾多研究成果的一款人工智能聊天機器人。微軟小娜則是微軟(亞洲)互聯網工程院基于Cortana,深度本地化再創新的一款人工智能個人助理,扮演的是知書達理的女秘書形象,幫助用戶做好日常的行程計劃安排。

小冰和小娜可謂是集大成的人工智能機器人,她們將看、聽、說等類似于感官所獲得的信息融為一體,共同形成接近于人的感知和一定程度的認知。而對于這種集大成的智能,我們稱為聚合的智能。你可能覺的這些技能看著很簡單,其實在她的背后融合了計算機圖像識別、語音識別、自然語言處理、文本轉語音、機器學習、社交網絡情感計算等不同方向的人工智能技術多年來的累積和沉淀。而這些能力的組合,便是人工智能的智力集合。微軟亞洲研究院的技術更像是幕后的隱形人,你雖然看不見他們的運作流程,但在和小冰對話的過程中卻能潛移默化地感受到技術的神奇。

以圖片識別為例,小冰就采用了微軟亞洲研究院視覺計算組開發的基于深度卷積神經網絡(CNN)的計算機視覺算法系統,將我們在ImageNet挑戰賽中的成功經驗用于其中。在語義分析環節,小冰通過深層神經網絡等的機器學習算法,不斷學習過去的歷史信息,建立相應的數學模型。通過機器學習互聯網和社交平臺等文本內容,進行數據挖掘得出相關的主題,這是機器學習和文本理解的基礎。在決策環節,小冰采用了多種聯合決策機制,以實現帶有情感的高效機器決策。這其中采用了分布式詞向量訓練模型算法,更好地計算兩個詞之間的“情感距離”,以關系的“遠近”幫助小冰更好地決策。在輸出環節,小冰大量學習人類的表達方式,從中識別出帶有不同情感色彩的表達方式,再結合不同對話的上下文語境,以個性化的語言方式表達出來。

正是大數據、深度神經網絡等技術的發展與突破,讓小冰兼具“有趣”與“有用”,實現了超越簡單人機對話的自然交互,并以此與用戶建立了強烈的情感紐帶。現在微軟小冰從最初不到100萬的使用人數到現在的4000萬人,而人類用戶與小冰的平均每次對話輪數也高達23輪。而此前最領先的同類人工智能機器人,平均對話輪數僅有1.5~2輪。你可以設想一下,在平時,大部分情況下人與人的溝通回合也未必能達到23次,但跟小冰這個機器人竟能聊這么久,可見用戶和小冰之間有著非常強烈的情感聯系。

目前微軟小冰和小娜已經登錄了多個平臺,也包括?iOS 和?Android 平臺。所以目前小冰和小娜是支持跨平臺、跨設備的,你在一臺設備下設定任務,另外一個設備能夠同步為你服務。今天微軟可能是唯一一家有跨設備、跨平臺助手的公司。

那么未來像小冰和小娜這樣的人工智能助理應該如何發展呢?對于人工智能助理又應該有哪些衡量標準呢?我認為這其中有三個“度”,分別是廣度、深度和溫度。

第一是有廣度,它的知識面越來越寬了,可能上到天文地理,下到日常生活,無論是什么話題,她都能和你聊起來。第二是深度,它不僅什么東西都知道,在一些專門的領域還能做得特別深入,就像我們人類一樣。人類都有自己不同的專長,幾年之后人工智能助手也能像人一樣“有所長”,如能夠擔任你的工作助理,或是醫療助理、語言學習助理等。第三個度是溫度,人工智能助手和你能有情感層面的交流,它知道在你生日的時候為你準備驚喜,也知道如果你之前睡眠質量不好或睡太晚,今天會提醒你早點休息,或是給一些助眠建議。

當人工智能助理有了廣度、深度和溫度,我們理想的人工智能便離我們不遠了。

2016年,人工智能的新紀元

人工智能的春天再次來臨,關于人工智能的過論也越來越多。對于大眾來說,對人工智能技術的發展現狀還是一知半解的。人工智能威脅論,比如他們會取代人類的很多工作,如好萊塢電影中常見的人工智能最后反過來控制人類等,大家對人工智能有種陌生的敬畏感。但反過來人們也是非常期待人工智能的,因此在接觸到現實生活中的人工智能產品時,又往往會產生落差感。

為了方便大家理解人工智能發展到了什么程度,有人提議以人的年齡作為評判依據,試圖找到現在人工智能的智力水平究竟相當于人類多少歲的智力水平。事實上這個問題是無法回答的,因為目前的人工智能可以戰勝50多歲的國際象棋特級大師,但人工智能目前的學習能力與正在每天吸收新知識的5歲入學兒童是完全無法相提并論的。那么我們究竟應該認為人工智能現在是50歲呢,還是5歲都不到呢?

我們從上面這個問題可以看到,人工智能發展目前所面臨的挑戰和障礙巨大,實現人工智能道阻且長,但歸根結底制約人工智能研究的有3個主要因素

實現人工智能,道阻且長

首先是理論框架的制約,目前在理論和算法上我們還有很大的提升空間。例如,以今天最成功的深度學習為例,它的理論框架也存在一定的問題。例如,深度學習今天都用的是BP算法,它的網絡結構都是往前連接的,目標函數也都只有一個。但機器學習中有很多別的理論不是這樣的結構,它們的目標函數也是不一樣的,它的梯度下降算法也是不一樣的。為什么深度學習就始終保持著一個結構、一個目標函數來做呢?這里面其實有更多的理論值得我們研究。

其次是運算能力的制約。雖然我們已經有GPU的Farm,但想訓練一個大的網絡其實還是會耗費大量的時間,此次ImageNet比賽中我們就在很多GPU上跑了很長的時間。開發一個新算法需要調試很多不同的參數結構等,如果我們能一分鐘的時間內測試一個算法的話,我們就會有機會嘗試各種不同的算法,也許我們在有限的時間內,在ImageNet挑戰賽中能夠取得更好的成績。

最后是數據量的制約。我們目前還沒有開發出像人類一樣擁有自主學習能力的算法,目前的機器學習還需要大量的訓練樣本來支撐。機器學習中的參數越多,我們需要的訓練樣本就越多,最終的算法才會越精確。擴大訓練數據的樣本量有沒有好的解決辦法呢?可以從兩個方面來考慮:一個方面是行業和行業之間建立一個協議標準,通過一個接口讓不同行業之間的數據可以共享。另外一個方面就是智能設備和不同的傳感器之間數據的輸出和機器學習算法的輸入也應該有個協議。有了這兩方面的協助,機器學習的數據量就會迅速擴大,最終訓練模型也會更為準確。

把握人工智能的脈搏:規劃產業布局

如今人工智能的春天再次回歸,這對整個的技術產業也提出了新的要求。我認為未來人工智能的產業布局將大致會分為6個環節,其中人工智能的應用將會發展為針對普通用戶的交互和用于工業界使用的兩大分支。

首先是最底層的模擬人腦的芯片的開發環節。今天的計算機芯片基本上還是基于馮諾依曼架構,這種架構對于一般的邏輯計算和存儲都十分實用,但想實現人工智能,這樣的架構可能就不那么理想了。目前有不少公司正在嘗試能否開發出像人腦一樣的芯片。

那么從底層往上走的第二個環節是介于硬件芯片和上層開發之間的類腦計算的結構和模塊。有了模擬人腦的芯片硬件之后,研究人員就能夠基于這類芯片開發出一些模擬人腦及思維方式的一些算法或者模塊。目前無論是語音識別還是計算機視覺,都是在GPU上模擬神經元,模擬出很多層,但由于芯片的限制,層與層之間的反饋基本上是往前單向反饋的。今天的芯片需要大量的服務器和GPU才能模擬出人腦很容易就能做到的事情,這是遠遠不夠的。

再往上一個環節是開發出分布式的、大規模的、雙向前后反饋的機器學習的算法。微軟亞洲研究院不久前開源的分布式機器學習工具包DMTK就屬于這一類。

之后一個環節就是基于這些大規模的分布式算法,對人的看、聽、說等各種感官的模擬,如計算機視覺、語音識別、語音合成,甚至人的一些思維等。現在做智能家居、可穿戴設備等公司的技術創新也主要集中在這個環節進行創新。

如果再往上,第五個環節是什么呢?我們的人工智能在這個時候已經能完成一些基本的任務,有了在某種程度上的智能(IQ),接下來就要去完善EQ,進行情感計算。例如,你的人工智能助手知道什么時候應該說真話,什么時候說“善意的謊言”。

人工智能最頂端,也就是第六個環節,我會稱為增強智能(Augmented Intelligence)。計算機擅長的是記憶存儲、邏輯推理、演算分析等目前可編程的工作,這與人類負責邏輯思考的“左腦”十分相似,其實人工智能就像是一個負責推理演算的“左腦”,它與人類的右腦相配合,便能夠充分利用人類才有的創造力,延伸出無限可能,進而實現增強的智能。【相關閱讀:從人工智能到增強智能

人工智能時代,我們能做什么

人工智能是一個特別復雜的概念,他擁有非常多層的維度,如果只憑一些單獨的個體,是沒法把這件事情做成的。因此對于企業來說,非常重要的一點便是合作。大家都在期待人工智能實現技術的指數爆炸,實現這個一定是有一大批的研究者、企業和機構之間的相互溝通和相互合作。

我們非常高興地看到,越來越多的科技公司都在開放或開源核心的人工智能技術。微軟已經開放了很多人工智能技術,包括我在上文中提到的牛津計劃,還包括Azure Machine Learning,以及不久前亞洲研究院開源的分布式機器學習工具包DMTK。我們不僅僅是開源某一個具體的算法,我們其實開源了一整套的分布式訓練框架,使得任何別的機器學習的算法能在一個更大規模的分布式的系統上更加便利地進行計算。我們也相信,開放會是未來的趨勢,因為只有大家相互合作,最后人工智能技術才可能整體地、穩健地向前邁進。

對于個人來說,在人工智能時代我們也有很多參與其中的方法。毫無疑問,人工智能一定是今后整個IT產業幾個大的發展趨勢中至關重要的一個。對于信息領域的在校學生來說,需要通過學習一些基礎理論課程打好堅實的基礎。對于目前的從業人員們來說,則需要保持好終生學習的習慣,IT產業日新月異,需要時刻包括整個產業的大趨勢。

把握產業大趨勢的方式有很多,如了解國家的發展方向和戰略方向,和整個產業的發展方向相結合,從而找到自己的方向。其次是多參加一些產業界最前沿的會議,這是一種很好的吸取營養的方式。最后就是經常接觸一些初創企業,如美國的硅谷、中國的中關村和一些產業園區和孵化器等,因為這些地方經常是一些最前沿想法發生的地方。

因此對于個人來說,把握好這四點至關重要:產業的發展趨勢、國家政策的發展趨勢、最前沿的一流學術會議,以及多接觸初創企業

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容