最近組內做分享，想來想去就講“語音交互設計”這個主題吧，以下是我分享內容的PPT，內容比較基礎。

去年扎克伯格接收了一個個人挑戰，去建立一個帶語音交互的AI來管理自己的家，叫做jarvis，就是鋼鐵俠里的那個jarvis，還加上了Morgan freeman的音色，像鋼鐵俠里的jarvis智能管家相信是很多人期望的。

交互式語音應答誕生于上世紀70年代普及于2000年，撥打10086，你會聽到歡迎致電中國移動，智能客服快速查詢辦理請按6，手機業務請按7，寬帶業務請按5，集團業務請按8，重聽請按9，人工服務請按0，但是有沒有覺得按一串1，0呀，有種摔手機的沖動。

手機語音助手，siri是2011年iphone4s發布會上發布的，Cortana是2014年win8發布會上發布的。一開始大家對這種語音對話的形式感到很有趣，但嘗試一段時間后發現，除了讓它講個笑話以及偶爾調戲一下逗逗樂子以外，再也想不到要喚醒它干嘛。

智能音箱，2014年亞馬遜發布echo音箱，拉開了遠場語音交互的帷幕，智能音箱它具有語音交互可提供內容服務、互聯網服務、以及場景化的智能家居控制能力，所以最近幾年，國內外的巨頭紛紛布局智能音箱市場，Google home，apple home pod，京東科大訊飛的叮咚，阿里的天貓精靈，小米的小愛同學。

一個語音交互系統形象的來說也需要耳朵、大腦和嘴巴。聽覺是怎么產生的，聲音通過外耳接收，鼓膜和聽小骨振動傳到內耳，內耳的感受器官把聲能轉換為神經沖動，再經過神經傳入中樞。麥克風拾音就相當于外耳接收聲音，語音識別將語音轉換為文字就相當于將鼓膜將聲波的振動化，語音解析把文字轉換成機器理解的語言就相當于內耳感受器官轉換為神經沖動。大腦怎么運作我就不知道了，而我們用自然語言處理技術來理解語義，人工智能人工大腦來做問題求解等等。最后通過大腦處理生成一些自然語言句子，就通過嘴來說出來，也就是這里的語音合成。

縱觀計算機發展史，人機交互也從DOS系統下的命令行界面 Command line interface，到喬布斯從施樂公司那里觸發靈感，用在1984年mac上的GUI，再接著iphone觸控交互，再到如今語音交互的研究，我們一直在尋找更加友好的人機交互方式。

VUI有一些優點是GUI無法企及的，第一輸入效率高，如今語音識別準確率能達到97%，而一個人一分鐘也能說400字，這種打字輸入速度是無敵的，所以對于一些行業，能夠大大提高效率；第二解放雙手，至少不用去觸碰鍵盤或屏幕，而有些場景如開車、廚房里做飯、冬天睡覺躬進了被窩，然而忘關燈了；更為自然的交互和零學習成本，小孩子還小就會說話了，但不會打字，再怎么教爺爺奶奶用手機也會忘記，但是語音是更為自然的，零學習成本的。

當然它也有很多缺點，眼睛接收信息有時間和空間XYZ軸這么多維度，而耳朵接收信息只有時間單一的維度，時間決定了接收信息的多少，是單向的、線性的，有這樣一個數據，視覺接收信息是聽覺接收信息的100倍，視覺閱讀文字是聽覺的2~5倍，而且視覺還可以以圖片來作為信息載體。所以語音交互系統設計時也需要把視覺表現的信息量盡量壓縮在呈現為聽覺信息，況且人的記憶力也是有限制的，信息很多，用戶還記不住呢，所以也不適合復雜的任務。還有處于隱私的考慮，在一些公共場合也不適合使用語音。

讓我們來分析一下剛才這一段對話過程，首先我叫XX的名字，如果他聽到了他會回答我“干嘛呢”或一個眼神示意，這樣我就知道他在聽我講話，那么我就可以繼續說“以上內容理解了嗎”，然后他會想一想，然后在回答我“……”，我接收到信息，這樣一段對話就完成了，那么我們將人之間的對話提煉出來，就是語音的一個交互框架。

喚醒大概有這么幾種，實體按鍵比如iphone長按home鍵，虛擬按鍵喚醒有點擊，siri界面底部的圖標，還有長按，微信語音輸入已經讓用戶養成了習慣。語音喚醒是最自然的方式，也是雙手被占用，遠距離場景都是最佳的方式，目前的技術一般要求需要3~4個音節來喚醒，漢字一般一個字為一個音節，英文一般是根據元音來區分音節的，當然喚醒詞也要跟你產品想要塑造的視覺形象相關聯起來。

怎樣來判別設備已經喚醒了，用一些聲音、光的方法，比如智能音箱這種沒有屏幕，會用帶強弱有呼吸的燈效來反饋，Siri這種用聲音來反饋，這樣就告訴我設備在聆聽了。

喚醒的時效性，日常生活中交談，說了多長時間，有一段時間沒有對話了，下一次對話呢肯定需要先喚醒的，但是現在的設備好像都是一兩句就結束了，每次都要喚醒。

喚醒設備后就要來對話了，對日常對話中，我們無意識的會遵循一些規則和規律，總結下來良好的對話有輪流、串聯、語言的潛在效率，多樣性這四點。如何來理解，“輪流”就是指我們互相來回的輪流表達，傳遞信號，如果缺少有效的輪流互換，又去無回，那就無法保持雙方信息上的同步，沒辦法跟上對方的節奏。“串聯”就是指對話是連貫的，會有上下文，比如有時候有的人談話時會轉移話題，但我們不能講兩三句就轉移一次話題吧。“潛在效率”是指利用語言的潛在效率，我們在日常對話中會自動補全一些潛臺詞，有些表達可以不言而喻。“多樣性”是指用戶說話的多樣性，同樣的內容，可能會有不同的表達方式，比如設鬧鐘，我會說，幫我設個早上8點的鬧鐘，明天早上8點叫我起床。

場景是不管什么UI都是需要考慮的，只不過對話UI的場景一般是比較簡單的、直觀的、不需要太復雜的互動，而且設計對話UI需要考慮。

用戶在哪里？所處的環境是怎樣的？用戶正在做什么？用戶使用的是什么設備？用戶要完成什么任務？目標是什么？用戶的期望和意圖是什么？

試著去滿足用戶的意圖，而不是僅僅考慮提供功能。

分析產品的用戶群體，根據這樣一個具體的用戶畫像，我們來設計我們的產品，因為我們設計的不僅僅是一個系統，我們也需要為對話UI中注入“人格”，用戶在對話中能夠感受到一個人的存在。而且這個聽覺形象也要反應一個產品的品牌訴求，讓他有個人的特征。在GUI中我們可以通過“色彩、材質、形狀、版式、動效、字體”來塑造視覺形象，聽覺形象可以用“音色、節奏、音調、響度”的語音設計要素來設計。也要考慮用戶場景，比如機場的語音要給用戶“被服務的，受到尊敬”的感覺，考慮內容，八卦的新聞用戲謔的情感，歷史的聽覺感要有滄桑感，動物世界就趙忠祥老師啦。

設計對話，我們日常生活的對話有很多可能性，機器與人的對話也是有多種多樣的可能性，所以不能只考慮核心場景，只構建對話的愉悅路徑，我們需要列出諸多可能存在的場景，考慮意外狀況。系統無法滿足用戶的請求，系統就需要修復調整整個對話，直到滿足用戶的意圖。所以再強調一點，設計對話要圍繞用戶的意圖，而不是僅僅提供功能。

如今我們已經邁入了遠場語音交互的階段，當然還有很多復雜的場景，分布場交互：主要是指狹小空間內多人識別和響應的問題，最常見的就是汽車場景，現在的汽車智能交互僅僅照顧了駕駛員的需求，但實際應用中可能需要照顧汽車其他乘客的交互需求，這就涉及了多人識別和交互的問題。事實上，隨著智能音箱等一系列智能設備的普及，未來我們的家庭就是典型的分布場交互場景。多語種交互：主要適應跨語言時候的自由交互場景，當前Google、百度和科大訊飛推出的翻譯機部分解決了一些問題，但是這些翻譯機主要還是近場語音，過渡到遠場語音交互的難度很大，因為翻譯的場景確實太復雜多變了，在數據積累還沒形成規模之前，這類技術還很難有實質性突破。等等還有很多場景。

再說聽懂人類情感，人類情感是一個更加復雜的過程，人類至今也沒搞清楚情感的來源。聲紋識別，聲紋識別的理論基礎是每一個聲音都具有獨特的特征，通過該特征能將不同人的聲音進行有效的區分。情感識別，主要是從采集到的語音信號中提取表達情感的聲學特征，并找出這些聲學特征與人類情感的映射關系。聲光融合，聲學和光學總是相伴相生，人類的情感也是通過聽覺和視覺同時接受分析的，因此機器也必然將語音和圖像結合在一起分析，才能更好的理解人類的情感，但是語音和圖像在各自領域并沒有發展成熟，因此聲光融合的研究一直處于被輕視的尷尬地位。

當然還有很多不止這里列出來的這些，所以我們就期待未來吧，相信科技的進步。