本文編輯:Cynthia
2017年,人工智能的消費(fèi)產(chǎn)品落地聚焦在了智能音箱上,谷歌、亞馬遜紛紛推出智能音箱產(chǎn)品,國內(nèi)的阿里巴巴推出天貓精靈,小米推出小米AI音箱。智能音箱通過語音可以發(fā)出指令,未來可能成為智能家居的入口,通過語音控制家里的其他智能設(shè)備。
幾個(gè)月前谷歌的語音識別應(yīng)用推出支持個(gè)性化語音識別功能,而本周三,也就是10月11日,亞馬遜的Echo音箱也具備了這項(xiàng)功能。
當(dāng)不同的人對著音箱說話時(shí),可以自動識別身份,提供比如個(gè)人專屬的音樂播放列表、個(gè)性化購物等功能。總之,可以通過聲音來識別人,讓語音控制更進(jìn)一步。
亞馬遜Echo音箱背后是亞馬遜的Alexa智能語音技術(shù),陳亞是一位華人工程師,是亞馬遜Alexa機(jī)器學(xué)習(xí)團(tuán)隊(duì)的資深工程師,負(fù)責(zé)語音識別、語義理解模型的搭建及優(yōu)化。關(guān)于Alexa的技術(shù)內(nèi)涵壹佰案例特意與陳亞進(jìn)行了交流。
語音識人的技術(shù)原理
如果在很多人的空間里,讓Alexa知道是誰在說話,使用的是鉚釘語音檢測的思路,開始通過Alexa來喚醒系統(tǒng),使用一個(gè)RNN從中提取錨定嵌入,記錄語音特征,接下來用另一個(gè)RNN從后續(xù)的請求語句中提取語音特征,基于此得到一個(gè)端點(diǎn)決策。
陳亞介紹,Alexa是首個(gè)通過語音指令驅(qū)動的AI語音助理軟件,只需要呼叫“Aleca”,就可以對已經(jīng)連接數(shù)百個(gè)應(yīng)用的Alexa下達(dá)工作指令,比如播放音樂、查找資料、啟動其他智能設(shè)備或者購物等。
現(xiàn)在Alexa并不只是一個(gè)語音識別工具,已經(jīng)變成了一個(gè)很成熟的操作系統(tǒng),未來有可能取消傳統(tǒng)的手機(jī)屏幕,通過語音就可以進(jìn)行操作。
Alexa的深度學(xué)習(xí)技術(shù)原理
Alexa的開發(fā)進(jìn)行了大規(guī)模的深度學(xué)習(xí),一個(gè)人成長到16歲耳朵聽聲音的時(shí)間大概只有14016小時(shí),而Alexa的深度學(xué)習(xí)是將幾千個(gè)小時(shí)的真實(shí)語音訓(xùn)練數(shù)據(jù)存儲到S3中,使用EC2云上的分布式GPU集群來訓(xùn)練深度學(xué)習(xí)模型。
在訓(xùn)練模型方面,Alexa使用幾個(gè)逼近算法減少更新規(guī)模,隨著GPU線程的增加,訓(xùn)練速度也會加快,每一秒可以處理大約90分鐘的語音。人耳16年可以聽1.4萬個(gè)小時(shí)的語音,而Alexa使用3小時(shí)就可以完成。
Alexa的語音識別系統(tǒng)主要包括信號處理、聲學(xué)模型、解碼器以及后處理等4大模塊,首先將收集的聲音進(jìn)行信號處理,再將語音信號轉(zhuǎn)化到頻域,從10毫秒的語音中提取特征向量提供給聲學(xué)模型,聲學(xué)模型負(fù)責(zé)把音頻分成不同的音素,解碼器可以得出概率最高的一串詞串,經(jīng)過后處理把單詞組合成容易讀取的文本。
Alexa與其他語音識別應(yīng)用的優(yōu)勢
陳亞介紹到,Alexa之所以能夠占據(jù)終端市場70%的市場份額,是因?yàn)閬嗰R遜客戶至上的文化信仰。Alexa能夠取得成功,是因?yàn)閺漠a(chǎn)品設(shè)計(jì)到開發(fā)管理模式等方面都堅(jiān)持客戶至上的原則,進(jìn)行用戶體驗(yàn)革新,降低智能家居門檻,建立Alexa生態(tài)。
即將在11月9日開幕的第六屆TOP100全球軟件案例研究峰會上,陳亞將以分享嘉賓的身份出席,從產(chǎn)品設(shè)計(jì)的角度分享亞馬遜用戶至上理念引導(dǎo)的產(chǎn)品設(shè)計(jì)思路,以及亞馬遜對人工智能和機(jī)器學(xué)習(xí)的探索經(jīng)驗(yàn)。
更多TOP100案例信息及日程請前往[官網(wǎng)]查閱。4天時(shí)間集中分享2017年最值得學(xué)習(xí)的100個(gè)研發(fā)案例實(shí)踐。本平臺共送出10張開幕式單天免費(fèi)體驗(yàn)票,數(shù)量有限,先到先得。