人類400年前就渴望和機器對話了
編者按:隨著人工智能的迅速發展,智能語音識別能為了新的研究熱點。智能音箱是語音識別最直接的衍生產品,各大科技巨頭都在進軍市場,國外有亞馬遜、蘋果、谷歌,國內有京東、阿里、小米。本文介紹了語音識別技術的發展史。
一個走路還不穩當的小男孩穿過客廳,徑直走到角落后停下了腳步,那里擺放著一個外觀黑亮、光滑的小巧圓柱狀物體。“嗨,Alexa”,男孩兒對著它高聲說道,“播放些兒童音樂吧”。盡管聲音有些含糊不清,但Alexa似乎聽懂了,于是演奏開始了。
Alexa是亞馬遜旗下一款基于云的語音識別軟件,同時也是那個圓柱形智能音箱Echo的大腦。它的出現讓世界為之驚訝,當然不包括小孩子,因為他們認為這是理所當然的。Alexa會伴隨孩子們長大,同時自身也會不斷改善,在人工智能的幫助下可以回答越來越多的問題,甚至有一天可以和人類自由對話。
年齡大于10歲的人會知道語音識別軟件并非與生俱來,而是經歷了漫長的發展才有了今天的成果。智能音箱Echo尺寸比啤酒杯還要薄,但在20世紀中期,第一代語音識別設備,幾乎要占據一件屋子。
人們一直有和機器交流的意愿——至少是讓它們和自己說話。“聲音——最自然的交互方式,使得人類和科技的互動如此簡單,也是我們每天溝通的方式”。亞姆遜設備事業部和Alexa歐洲區副總裁喬里特·范德·莫伊倫(Jorrit Van der Meulen)說道,“語音代表未來”。
1773年,俄羅斯籍科學家、哥本哈根大學生物系教授克里斯蒂·克拉特茲斯坦(Christian Kratzenstein),也有著類似的想法。他將共振管和風琴管連接起來,制造出了一個可以發出類似于人類元音的神奇設備。就在10年后,維也納的沃爾夫岡·馮·坎佩倫(Wolfgang von Kempelen)發明一了臺類似的機器語音裝置。在19世紀初期,英國發明家查爾斯·惠斯登(Charles Wheatstone)在坎佩倫的基礎上進行了改進,使用了皮革制共振管,系統裝置可以手動調節或控制來產生不同的語音。
1881年,亞歷山大·格雷厄姆·貝爾(Alexander Graham Bell)和他的兩個外甥,奇切斯特·貝爾(Chichester Bell)、查爾斯·薩姆納·廷特(Charles Sumner Tainter)共同發明了一個帶有蠟涂層的旋轉圓柱,根據輸入聲音強度,唱針會在表面切割垂直凹糟。該裝置為1907年第一臺錄音機“Dictaphone”打下了基礎。錄音機使得秘書工作者不再依賴速記員,可以用機器來記錄發言,事后再錄入。此項發明之后,全球越來越多的辦公室里,秘書佩戴者沉重的耳機,收聽錄音并整理記錄。
Audrey可以識別數字0~9的發音,且準確度高達90%以上
但以上這些雛形機器都是被動式,直到1952年自動數字識別機“Audrey”誕生。這個由貝爾實驗室(Bell Labs)制造的巨型機器占據了一個6英尺高的繼電器機架,耗電量巨大,連接著成群的電線。它可以識別語音中基本單位—音素。
當時,計算機系統十分昂貴,靈活性很差,內存和計算速度有限。盡管如此,開發商HK Davis初次推出Audrey時,它可以識別數字0~9的發音,且準確度高達90%以上。當面對指定的發言者時,準確率達到了70-80%,但對不熟悉的聲音準確率很低。貝爾實驗室信息分析部的查理·巴爾(Charlie Bahr)表示:“這是一個令人驚奇的成就,盡管系統龐大到需要占據整個房間,并需要專門的電路來識別每個數字。”
因為Audrey只能識別指定發言者的聲音,因此用途有限:例如撥號員可以通過它語音撥號,但實際上人工按鈕撥號即便宜又快捷。因此Audrey更像是一只雛鳥——在通用計算機前誕生。雖然它沒有投入到生產系統中,但“表明了語音識別的可行性,”巴爾說道。
但是還有其他目的。查理·巴爾的同事拉里·奧戈爾曼( Larry O’Gorman)說道:“我相信研究Audrey的最初目的是減少帶寬,使得電線傳輸數據量更小。”語音識別相比原始聲波所使用的帶寬會更小。隨著二十世紀70和80年代電話交換機的數字化,使得電話線路分配更迅速、更便宜,但仍依賴于接線員理解撥號請求。因此在此時期,貝爾實驗室在語音研究花費的巨大努力,就是希望做到以下簡單幾點:識別數字0~9,以及“是(yes)”和“不是(no)”。奧戈爾曼:”只要可以識別這12個單詞,電話系統就可以完全過渡到機器電話轉接了。"
除了Audrey,二十世紀六十年代,日本的幾支研究團隊也在從事語音識別工作,比較知名的包括東京無線電實驗室的元音識別器,京都大學的音素識別器以及NEC實驗室數字語音識別器。
我們不想再查字典了(指模板匹配),因此我想創造一個可以翻譯的機器 ——亞歷山大·韋貝爾
在1962年的世界博覽會上,IBM展示了它的“鞋盒”(Shoebox)機器,可以識別16個口語化單詞。此外美國、英國、前蘇聯都進行了相應研究,蘇聯發明了動態規劃算法(DTW),使得它們的識別器可以認知200個單詞。但這些系統大部分都是基于模板匹配,即將每個單詞和已存儲的語音模式進行匹配。
最大突破發生在1971年,這一年美國國防部研究所(Darpa)贊助了五年期限的語音理解研究項目,希望將識別的單詞量提升到1000以上。參與該項目的公司和學術機構包括IBM、卡內基梅隆大學(CMU)、斯坦福研究院。就這樣,Harpy在CMU誕生了。
不像之前的識別器,Harpy可以識別整句話。“我們不想再查字典了(指模板匹配),因此我想創造一個可以翻譯的機器,這樣當你說某種語言,它就會把它轉換為文字,再對文字進行翻譯并輸出文本,一氣呵成。”卡內基梅隆大學計算機科學教授亞歷山大·韋貝爾(Alexander Waibel)說道,他同時參與了Harpy以及Harpy-II的工作。
從字到短語(翻譯)并不容易。“對于句子來說,單詞會互相干擾,你會感到困惑,難以確定句子的開頭和結尾。例如,單詞’euthanasia’,很可能識別為’youth in Asia’。或者你說了’Give me a new display ’,它可能被理解為’give me a nudist play’。”韋貝爾說道。
最終,Harpy可以識別1011個單詞—接近三歲孩子的平均詞匯量,并且準確率還不錯,算是實現了Darpa定下的目標。“它成為了很多現代系統的鼻祖”,CMU語言技術研究所主任杰米·卡博奈爾(Jaime Carbonell)說道,“它是第一個成功利用語言模型判斷哪些單詞放在一起更加合理的系統,因此它能夠降低語音識別的錯誤率。”
在后來的幾年,語音識別系統又得到了發展。在八十年代中期,IBM創造了一個語音控制的打字機—Tangora,能夠處理大約20000單詞。IBM的研究是基于隱形馬爾科夫鏈模型(hidden Markov model),在信號處理技術中加入統計信息。這種方法使得在給定音素情況下,很有可能預測下一個因素。
IBM的競爭對手美國聲龍(Dragon Systems )提出了自己的方法,技術的大踏步前進推動了第一個語音識別應用的誕生——例如可以讓孩子訓練說話的玩偶。盡管取得了成功,但是當時所有的程序都使用離散的聽寫,這意味著使用者必須每個單詞發音后都要停頓。1990年,聲龍發布了第一款消費級語音識別產品Dragon Dictate,價格高達9000美元。而后在1997年,Dragon NaturallySpeaking問世——第一個可識別連續語音的產品。
“在此之前,語音識別產品僅限于離散語音識別,這意味著每次只能識別一個單詞,”Nuance Communications公司高級副總裁兼總經理彼得·馬哈尼(Peter Mahoney)說道,“通過開創連續語音識別,聲龍首次實現了通過語音識別來創建文檔。”Dragon NaturallySpeaking每分鐘可識別100個單詞——至今仍然使用,例如,在美國和英國許多醫生用它來錄入病歷。
在過去的十余年里,基于人腦工作機制的機器學習技術使得計算機可以在大量語音數據上進行訓練,從而使得對不同人的不同口音也具有了出色的識別能力。
谷歌巧妙地使用了云計算來處理app接收到的數據
這項技術的發展經歷了一段時間的停滯,直到谷歌為iPhone發布了谷歌語音搜索(Google Voice Search)app。谷歌巧妙地使用了云計算來處理app接收到的數據。很快,面向大眾的語音識別軟件的計算能力大大增加。用戶數十億次的語音搜索使得谷歌收集了大量語音樣本數據,谷歌有能力實現大規模數據分析工作——將用戶語音和這些數據樣本進行匹配。在2010年,谷歌在安卓手機的語音識別app中加入了“個性化識別”,并于2011年年中將語音識別加入了Chrome瀏覽器。隨后,蘋果迅速推出Siri加入戰場;微軟推出了AI Cortana,名字來源于一款科幻游戲系列《光暈》中的角色。
目前機器的聲音和人聲差別不大,但在很多情況下自動語音識別成功率遠低于人耳——拉里·奧戈爾曼,諾基亞貝爾實驗室
那下一步該如何呢?“在語音處理領域,最成熟的技術是語音合成,”奧格曼(O’Gorman)說道,“目前機器的聲音和人聲差別不大,但在很多情況下自動語音識別成功率遠低于人耳。”雖然在較小噪音環境下,清楚的發音仍可以被自動識別,但所謂雞尾酒會效應——人們在雞尾酒會上嘈雜的環境下仍可以理解講話者的發言,這是目前任何技術都達不到的。即使是Alexa,如果是在嘈雜的室內,你必須離它很近,并且保證發音清楚洪亮。
范德·莫伊倫(Van der Meulen)表示:“亞馬遜語音識別的靈感來源于星際迷航(Star Trek)中的計算機,目的是在云上創建一個完全由語音控制的終端,以便用戶可以和它自由交流。的確,目前的技術還不能達到好萊塢大片中的水準,但我們處于機器學習和人工智能的黃金期。盡管實現機器像人一樣做事還有很長的路要走,但我們每天都在和這些復雜的問題做斗爭。”
作者:Katia Moskvitch
原文鏈接:http://www.bbc.com/future/story/20170214-the-machines-that-learned-to-listen
編譯:Timmy