訊飛,與它承諾給我們的那個萬物有靈的未來

編者按:曾經(jīng)在合肥的時候,該市的朋友總會給我講些關(guān)于中科大的詭異傳說——

“哎,你看見沒,你得繞著那個樓走,那是核物理所,里面好幾個反應堆呢,你手里有個蓋革計數(shù)器現(xiàn)在指針就狂跳了。”

“知道中科大為什么沒放在北京上海,給擱在這么一個二線城市么?中科大物理其實比中科院牛多了,好多國外的實驗都得拿過來做。沒準哪天加速器突然搞出個黑洞就把合肥給吃了。”

不知真假。

之前對科大唯一的認知是,科大的食堂……實在太好吃,就是沒有校園卡吃不了。

直到做手機的羅永浩老師展示了和訊飛語音的合作,我才真正知道了有【科大訊飛】這家其實已經(jīng)成立了17年的公司。

然而,那時候的認知,也只是以為,訊飛是個做輸入法的。

??

AlphaGo,其實也是個超級強化版的

看著AlphaGo 干脆利落地結(jié)果了李世乭九段,你也跟風轉(zhuǎn)發(fā)了朋友圈,四處搜尋復盤分析文章,感嘆人工智能即將取人類而代之,拉了《終結(jié)者》《黑客帝國》和《西部世界》這樣的片單?

其實大可不必。

▲ Google DeepMind 圍棋挑戰(zhàn)賽,韓國棋手李世乭 vs AlphaGo


▲相似的一幕:1997年5月11日,國際象棋世界冠軍卡斯帕羅夫?qū)﹃嘔BM 電腦Deep Blue

類似的“人類被機器打敗”的擔憂,我們遠不是第一次見到。1997年,國際象棋歷史上最偉大的棋手之一,俄羅斯棋手卡斯帕羅夫以1勝2負3和的總比分敗給IBM 電腦“深藍”。

在棋牌這類可以通過窮舉運算的、規(guī)則明確的游戲中,摩爾定律讓電腦不斷倍增的浮點運算能力發(fā)揮了最大的作用。而在圍棋這種無法簡單窮舉的策略里,通過更加復雜的概率運算、局面分析和策略學習機制形成復合系統(tǒng),用來制定最佳的策略。

而讓機器如何拋棄純粹邏輯的底層,真正像人一樣思考,或者說,“擬人”地思考,這正是訊飛面對的課題。

??

人工智能?抱歉,它們還比較笨

我們常在國外的游行示威里看到這樣的對話:

- What do we want?

- Peace!!!

- When do we want it?

- Right now!!!

而AI從業(yè)者將其改成了一個笑話,用來諷刺現(xiàn)在自稱“人工智能”的語義判斷邏輯:

- What do we want?

- Chatbots!

- When do we want them?

- Sorry, I didn't understand that request.

這個笑話,即是諷刺人工智能對于上下文和語義環(huán)境不能進行識別,即人工智能領(lǐng)域常說的context——語義、上下文、語境、背景、環(huán)境、文化氛圍……無數(shù)復雜的微信息都融匯在這里。對于context 內(nèi)容的智能分析,是一個極為復雜的領(lǐng)域。

人類在6歲之前就具備了常識邏輯和基本的判斷能力。回想你從6歲到20歲的痛苦求學經(jīng)歷,其實滿打滿算也就是幾塊硬盤的知識量,電腦可以輕易地全部掌握。而人類潛意識中并行加工、發(fā)散的“常識模式”,卻是電腦最難掌握的。我們會直覺地明白“媽媽”的定義,然而你如何用邏輯來解釋“媽媽”?這起碼得墊幾篇倫理學和醫(yī)學論文吧。

就如同我們經(jīng)常調(diào)戲的Siri 一樣。在Siri 的對話庫中存在大量的模板。這些模板確定了Siri 對于所有常見問題的反應。這些模板一部分來自于實時的搜索,一部分則是內(nèi)置的“段子”。這類看似“智能”的AI 助理產(chǎn)品,其實只是通過“語音抓取+模板庫”的機制,為你營造日常應用里“智能”的感覺。日常使用里,模板可以cover 掉絕大多數(shù)的問題,而如果你存心刁難Siri,它肯定會露出馬腳。

道理很簡單,套路是不能長久的,云套路也不行。

??

語音交互——帶上TA的聲帶

訊飛的突然走紅,很大程度要感謝羅永浩老師在發(fā)布會上演示的語音輸入——完全口語化,幾乎0錯誤率,甚至加入了語氣匹配的標點符號。

語音輸入的概念并不新鮮。至少在2011年10月,Siri 的正式發(fā)布就為全球智能手機用戶科普了這一概念。然而在中文識別領(lǐng)域,Siri 一直做的不甚理想,身邊不少朋友的Siri 都是英文版本,用以完成上鬧鐘、叫車和導航等等簡單的服務。和別人扯著京片子時突然說Siri,take me to the nearest gas station 也是一件頗為奇怪的事。

訊飛在語音識別領(lǐng)域顯然更為“接地氣”。除了普通話外,我還在列表里看到了粵語、四川話、河南話、貴州話、客家話等十幾種方言。此功能強大到什么程度呢?就是某些同事裝了輸入法后完全不好好用,只是拿著手機完全當成是方言識別器,天南海北各種會與不會的方言亂說一氣,然后戴著耳機露出奇怪的傻笑。

平時,聽著uber 司機手機放出的“前方300米出口駛出主路,請并入右側(cè)車道”“前方有限速攝像,請減速慢行”的機械女聲,毫無人情味可言,令人不禁懷念曾經(jīng)車內(nèi)循環(huán)交通廣播和不孕不育廣告的年代。而羅老師演示的另一個功能,則是訊飛作為技術(shù)支持,老羅錄制+語音合成而形成的語音導航。訊飛通過語音合成技術(shù),提取老羅聲音中的特征進行語音合成,為他專門制作一個“個性化音庫”,這個相比“方言識別”一類的耕耘,顯得更“黑科技”一些。

▲嗯,其實,我想的是,什么時候我的手機里能裝這個東西……(電影《Her》)

在首批加入訊飛AI的人中,也有我局成員的身影。未來事務管理局局長姬少亭在訊飛的錄音棚里待了足足4小時,成為“訊飛個性化音庫”的首批體驗者。據(jù)說,局長當天錄制了上萬字的語音素材,而且整個錄制過程異常辛苦,不僅需要咬字清晰,語速均勻,而且要“不帶感情地讀”,以避免成為抑揚頓挫的“朗誦腔”。

至于局長的個性化音庫會被做成什么,訊飛方面還沒有透露給我局。但我的腦洞是,過兩年中國投拍的類似“西部世界”的故事里,沒準會有一個美少女形象,提著左輪手槍,用平時熟悉的催稿腔調(diào)說出——

“這是我這輩子最爽的兩個星期。”

??

當我們說圖靈測試時,我們?yōu)樯杜苋プ鯳inograd 測試

從《模仿游戲》這部與史詩差別其實蠻大的電影中,許多人認識了阿蘭·麥席森·圖靈這位計算機與信息技術(shù)先驅(qū)(當然,也包括津津樂道他的同性戀身份與吃氰化鉀蘋果自殺的悲慘經(jīng)歷)。

1950年,圖靈提出了圖靈測試的基本準則:如果一臺機器能夠與人類展開對話而不能被辨別出其機器身份,那么稱這臺機器具有智能。具體操作模式是,被試的人類在單盲的情況下提問,由機器作答。如果70%的人類認為無法判斷答題者是人還是機器,則認為圖靈測試通過。

▲ Alan Mathison Turing, 1912-1954

嚴格意義上來說,圖靈測試更多是哲學層面思維實驗,而非嚴謹?shù)摹⒖茖W的測試方法。不同提問者的提問策略完全隨機,而結(jié)果也完全是主觀判斷。這就讓實驗產(chǎn)生了很大的隨機性。而在云計算和搜索速度飛速發(fā)展的時代,統(tǒng)計意義上70%的通過標準,也顯得太過寬松了。

甚至很多AI在設(shè)計時,會通過一些取巧的方式規(guī)避提問策略,從而迷惑主觀判斷的人。比如,人會對重復的問題產(chǎn)生厭煩,或者對不禮貌的問題拒絕回答。而這些計算機策略會給人。最終,圖靈測試從“計算機能否擁有智能”具體化為了“計算機能否騙過提問者”。

而對于人工智能領(lǐng)域,相對來說更具有可操作性,更可量化的測試,即Winograd 測試。它將計算機對語義的理解程度,具體化為“代詞消歧義”的正確性。

“爸爸抱不起兒子,因為他太重了。”

“爸爸抱不起兒子,因為他太虛弱了。”

簡單舉例,上文中兩個“他”在任何具有閱讀能力的人看來,都有明確的指代——第一句指代兒子,第二句指代父親。但計算機識別這個代詞所指,則需要根據(jù)上下文進行常識性判斷。當然,這是簡單的句子,相當于語文考試前面的拼音送分題。更復雜的句子比如——

“主編發(fā)現(xiàn)這篇《不存在日報》里有5個錯別字,于是罵了責編一頓。他很愧疚,因為他惹他生氣了。他知道他喜歡吃胡蘿卜,于是他掏出他的錢包,買了三斤胡蘿卜送給他,討好他一下讓他不要再生他的氣。”

好的,請指出上面每個“他”分別指誰。大家記住,這是一個鑒別AI的好方法。身邊的一個同事耳朵里冒出了青煙,伴著一股焦糊味,估計他的CPU已經(jīng)燒了。

??

Winograd、KBP 與“訊飛超腦”

2016年春,科大訊飛?約克大學聯(lián)合實驗室獲得了Winograd Schema Challenge 的世界第一,嗯,鼓掌。

掌聲為什么稀稀落落的?因為WSC 以目前全世界的人工智能,還沒有人能達到60分及格分。對,即便是在比賽中得到世界第一的訊飛,也沒有及格。

這就像你這次數(shù)學考試得了全年級第一名,但這次估計是老師錯印了大學復變函數(shù)的卷子,所有人都沒及格。你拿著55分的卷子,要不要回家跟你爹報喜呢?

于是訊飛撓撓頭,就低調(diào)處理了。

就在幾個月之后,一個比Winograd歷史更悠久、業(yè)界影響力更大,名字也更長的比賽——NIST TAC Knowledge Base Population Entity Discovery and Linking Track,訊飛的兩個團隊包攬了本屆賽事的冠亞軍。TAC KBP已經(jīng)舉辦了八屆,是當前業(yè)界影響力最大、參賽隊伍最多、水平最高的知識庫構(gòu)建相關(guān)比賽。Entity Discover & Linking(實體發(fā)現(xiàn)與鏈接簡稱EDL)作為KBP比賽的核心任務,要求從中文,英文,西班牙文三語種文本中自動發(fā)現(xiàn)實體并連接到知識庫上。

至于這個“包攬前兩名”的含金量如何,不如看看該賽事的往屆參賽者陣容——IBM、卡內(nèi)基梅隆大學、倫斯勒理工大學、伊利諾伊大學香檳分校等。在人工智能領(lǐng)域,有頭有臉的公司、學院和研究機構(gòu),都是該賽事的熟面孔。

而訊飛帶去的兩支隊伍,一支由科大訊飛研究院獨立參賽,另一支由科大訊飛研究院和加拿大約克大學江輝教授團隊聯(lián)合組隊。國內(nèi)外學者一番通力合作,分別捧回了EDL任務的冠亞軍獎杯,順便刷新了該任務的歷史最好記錄。實際上,兩個團隊不只在中文任務上表現(xiàn)出色。還記得比賽是三語種嗎?訊飛在英文,西班牙文上的表現(xiàn)也受到了主辦方高度贊揚。

嗯,所以這次訊飛終于拿著滿分卷子,回家報喜了。

要不是羅永浩屢次在手機發(fā)布會上可勁兒安利訊飛,沒準很多人現(xiàn)在還不知道這么個做人工智能和智能語音的上市公司。它只是app store 里面幾個不起眼的應用圖標,一支代碼為002230的股票。

說到底,我們試圖創(chuàng)造“智能”,但我們對“智能”是什么,仍然沒有清晰的定義與邊界。AlphaGo 或許能贏過所有的棋手,但它并不真正地“會”下圍棋。它只是在努力逼近“會下圍棋”的邊界而已。

這也是訊飛的目標,2014年,他們推出了“訊飛超腦”計劃,計劃用更科學的算法,更完善的語義識別,更全面的上下文分析,逼近人類大腦的認知、經(jīng)驗、情緒構(gòu)建的并行架構(gòu)。

科大訊飛與中國科大、中科院聲學所、中國社科院語言所、哈爾濱工業(yè)大學、西藏大學等都成立了聯(lián)合實驗室,在海外也與約克大學聯(lián)合創(chuàng)建的“訊飛神經(jīng)計算與深度學習實驗室”(iFLYTEK Laboratory For Neural Computing And Machine Learning,簡稱iNCML)作為科大訊飛在北美洲成立的首個研究機構(gòu),該實驗室今后將專注于神經(jīng)計算、深度學習及人工智能領(lǐng)域的研究,這些中國的科技力量將共同來推進人工智能領(lǐng)域前瞻研究。

至于“訊飛超腦”是什么,我也不知道。更高的識別正確率?更準確的語義判斷?更豐富的語氣和明星語音包?還是,像它所承諾的那樣——讓機器人真的擁有一顆“能上大學的大腦”?

??

我們會在什么地方與訊飛相遇?

▲ 電影《月球》中的機器人Gerty,凱文·史派西配音

總之,我就等著訊飛給我做一個Gerty了。至少,是一個聽到你說“買三個西紅柿,如果有西瓜,就買一個”之后,不會給你買回來一個西紅柿的機器人。

人工智能+語音交互,隨著硬件水平提升與網(wǎng)絡(luò)環(huán)境優(yōu)化,已經(jīng)從幾年前的概念,進展到了如今“基本可用”的狀態(tài)。雖然Siri 偶爾會給你導航3000公里外的加油站吧……

機器碼、程序代碼、命令行、視窗操作系統(tǒng)、觸控屏幕操作與手勢操作、簡單語音交互,計算機的交互形式正在逐漸向著人類生理與本能的行為不斷進步。而訊飛做的工作之一,正是這個環(huán)節(jié)的最后一步,也是最為復雜的部分——讓計算機“理解”,或者在絕大部分時候“理解”人類語言。

更智能的家居,更安全的自動駕駛與泊車系統(tǒng),更聰明的語音助理,更便捷的操作感應,更符合你心情的音樂算法,用語音安排生活的一切,甚至包括寫下這篇《不存在日報》……我們聽到了無數(shù)次對“萬物有靈”智能時代的描述。未來的某一天,所有交互都可以用語音完成,我們可以不用按按鈕,點屏幕,而是說一段話后,放心地解放雙手,去握住更重要的東西……我們未來的人機交互,或許就是和整個智能的世界,不停地聊天兒。

咦?什么?你說想和機器談戀愛?為什么總有這么沒出息的人……那你要看訊飛對這部分的語義識別有沒有優(yōu)化過了。鑒于人類在戀愛狀態(tài)下的超低智商狀態(tài)和套路漫天的對話模式,我倒是覺得《Her》里面的云女友更容易實現(xiàn)。

對于訊飛在未來幾年具體怎么飛,嗯,我充滿期待。

第一次碼完稿子之后,感覺從頸椎和手腕酸痛變成了口干舌燥,哼,都是訊飛語音輸入的鍋。我拿過我的手機,決定聽首歌放松一下。

- Hey, Sing me the song called "Daisy Bell".

- Sorry. I didn't get that.


??責編:船長

??作者高小山,大齡犰狳,性溫和,喜床。西壩河畔文字工作者,淡粉色愛的戰(zhàn)士。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內(nèi)容