前幾天看了云棲大會·智能語音交互專場的直播,雖然自己作為技術(shù)小白很多內(nèi)容都沒聽懂(orz....),但也有不少的收獲,起碼讓我對目前智能語音交互領(lǐng)域開始有了些基礎(chǔ)的了解~
Overview —— 2017云棲大會·智能語音交互專場
智能語音交互專場一共是有7場分享演講:先是介紹了學界里研究院、語音實驗室等目前對語音交互的研究情況,之后是介紹目前工業(yè)界基于語音交互技術(shù)的產(chǎn)品研發(fā),再是介紹在2B、2C行業(yè)領(lǐng)域和語音交互技術(shù)的融合。
1. 技術(shù) —— 現(xiàn)在大牛們在語音交互實驗室中倒騰些什么?
第一、第二場,以及在第四場演講中分享了目前研究院、實驗室中對智能語音交互的研究狀況。介紹了大牛們在實驗室中,是如何通過機器學習(對抗學習、深度神經(jīng)網(wǎng)絡等等)算法,解決在強干擾下語音識別率低、回響時的聲音識別等難題的。
作為一個技術(shù)小白,聽到這些詞匯,可以說是相當?shù)囊荒樸卤啤V荒苁切”颈居浵聛碇竽a課:
智能語音交互領(lǐng)域關(guān)鍵技術(shù)包括語音合成、語音識別、語義理解、麥克風陣列等等:
語音識別
語音識別的目標是將人類語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機可讀的輸入,也就是讓機器明白你說什么。語音識別技術(shù)主要包括特征提取技術(shù)、模式匹配準則及模型訓練技術(shù)三個方面。
語音合成
語音合成的目標是使電腦具有類似于人一樣的說話能力。語音合成技術(shù)主要是根據(jù)韻律建模的結(jié)果,從原始語音庫中取出相應的語音基元,利用特定的語音合成技術(shù)對語音基元進行韻律特性的調(diào)整和修改,最終合成出符合要求的語音。
語義理解
語義理解是衡量人機交互的體驗度的一個重要指標,人工智能的核心是認知,而認知的核心是語義理解技術(shù)。機器人只有在“懂”了人類的指令后,才能正確執(zhí)行用戶下達的指令。
麥克風陣列
麥克風陣列,從字面上,指的是麥克風的排列。也就是說由一定數(shù)目的聲學傳感器(一般是麥克風)組成,用來對聲場的空間特性進行采樣并處理的系統(tǒng)。這種技術(shù)能夠使機器人或者被控制產(chǎn)品在嘈雜環(huán)境清楚的辨識真正的語音指令,在酒店、馬路等公共場所有非常廣泛的應用。
A. 語音識別方面,目前的識別率已經(jīng)挺高了,在手機端上應用或許已經(jīng)可以滿足基本要求了,但是離理想的最終目標還是有很大差距。目前在實驗室中致力于解決的問題有:
a. 強干擾下的語音識別。在有強干擾的情況下,語音識別的準確率會大打折扣。e.g.雞尾酒效應(兩個聲音一起說話),有回響時的語音識別......
b. 復雜場景下的語音識別。e.g.比如中英混雜說話的情況
c. 關(guān)于低資源、缺少標注數(shù)據(jù)信息。e.g.方言
B. 語音合成的挑戰(zhàn)有:
a. 個性化語音。
b. 自然度。語音合成仍缺乏韻律的表達。我們可能聽一兩句覺得還ok,但要聽一大段的篇章內(nèi)容時,會讓人覺得很不喜歡。
c. 缺乏情感表達。
2. 產(chǎn)品研發(fā) —— 從技術(shù)到應用,目前工業(yè)界基于智能語音交互的產(chǎn)品研發(fā)
第三場分享主要介紹了目前阿里在智能語音交互方面的一些產(chǎn)品:e.g.智能語音評審,智能化法庭;e.g.語音審核,監(jiān)測不良內(nèi)容,服務于視頻直播提供商,降低審核的人工成本;e.g. 淘寶客服,并進行對外輸出,與ISV合作;......
分享人提出在智能語音交互產(chǎn)品研發(fā)上,“智能語音交互的終極目的,是把互聯(lián)網(wǎng)技術(shù)帶到各種各樣的端上。”
在第四場Chin-Hui Lee大大的分享上,他除了分享了他再研究的語音交互技術(shù)問題,他還提出了一個 adoption chasm 的概念:智能語音交互技術(shù)與用戶的使用之間有鴻溝,語音交互仍然不能變成我們?nèi)粘I钪械囊徊糠帧?/p>
Chin-Hui Lee大大舉了個栗子:他女兒買了個智能語音音箱送給他,但是他們用了幾天之后就把它擱在一邊不再使用了,只是把它當成一個玩具,偶爾玩一玩而已。
Chin-Hui Lee說,人機自然交互(NUI)是技術(shù)+場景。對此,他提出的幾個問題都非常值得深入思考:
“為什么很多語音產(chǎn)品在一開始很多人會用,但之后使用率會快速下降呢?”
“怎樣才能讓人們更有黏性地應用語音交互?怎樣才能把語音交互培養(yǎng)成用戶的使用習慣?”
“有哪些場景是可以讓人覺得我一定要用語音交互的呢?”
這里提出的幾個問題,在后面的分享“家庭娛樂的人工智能”中,有一個例子能夠可以是嘗試著回答他提出的問題的~
3. 2B&2C —— 智能語音交互與商業(yè)社會和日常生活的不斷融合
第五場分享主要是介紹了在法律行業(yè)中如何運用智能語音交互。第六場分享“家庭娛樂的人工智能”,在其中有介紹了天貓精靈和阿里電視產(chǎn)品。他分享了一個很好的案例:在阿里電視產(chǎn)品上,時如何找到一個語音交互的切入點的。
分享人認為,目前語音交互技術(shù)發(fā)展很快,但是它還是非常初級的。現(xiàn)在進行語音交互一般都是“指令型”,它離非常自然的語音交互仍有很大的距離。當用戶嘗試語音交互產(chǎn)品時,發(fā)現(xiàn)效果不理想,那么第二天用戶又會返回到傳統(tǒng)的控制方式上去,不會再嘗試使用語音控制命令。在現(xiàn)在的技術(shù)條件下,可以把語音交互做一些減法,不要把它變得好像無所不能一樣。語音交互技術(shù)的未來前景很好,但目前可以先聚焦到可以解決用戶痛點的場景上。
在電視出現(xiàn)到現(xiàn)在,主要還是用遙控器去主導操作,它還是一種比較簡單、方便、快捷的一種交互方式的。但我們發(fā)現(xiàn)其中一個很大的痛點是:輸入法。用戶通過遙控器去輸入文字,比如搜索影片、輸入密碼等,是非常麻煩、很痛苦的。我們圍繞著視頻內(nèi)容搜索這個場景,從這個點上下功夫去做。在這個場景上,用語音輸入的活躍度是非常高的。我們圍繞著這個場景,從最初僅僅是影片名字等比較精確的搜索,到比較模糊的搜索,比如演員名字,最近上映的等等,從這個維度上去做擴展,讓用戶養(yǎng)成在搜索時用語音輸入的習慣。從這一點切入上,然后逐步打開用戶的使用場景。在阿里電視四代上,我們已經(jīng)能把這個場景上的語音輸入活躍度做得非常高了。