未來AI產(chǎn)品的人機交互應(yīng)該長成什么樣?
工業(yè)時代,是機器與人的交互。通過幾個按鈕就可以實現(xiàn)已有功能,僅能實現(xiàn)機器中幾個預(yù)先編碼好的功能。
互聯(lián)網(wǎng)時代,是軟件與人的交互。手機、電腦屏幕的出現(xiàn),使人們可以從二維圖形世界中選擇自己想要的功能選項。雖然功能選擇項可以無限增加,但仍然是我們預(yù)先編碼好的功能。
AI時代,是人與具備像人一樣思考能力機器的交互。想象人人交流,會有按鈕、會有屏幕讓你選擇對話內(nèi)容嗎?AI時代的人機交互,人們沒有預(yù)選項,你問我答,僅此而已!
那如何實現(xiàn)讓人機交互更加順暢?
和尚:這位施主,貧僧有理了,請問白馬寺怎么走?
繡娘:您沿著這條河一直往上游走就能到!
以上是和尚和繡娘問路的對話,假設(shè)繡娘是AI,那繡娘怎么才能回答和尚并給和尚指路呢?
需基本經(jīng)過這四個步驟:聽到——聽清——聽懂——反饋
首先AI繡娘需要聽到和尚的話(激活對話模式),然后聽清和尚的話(如果周圍雜音較大),然后聽懂(需要識別和尚話中的關(guān)鍵詞),最后進行反饋(搜索關(guān)鍵詞,尋找答案,將文字轉(zhuǎn)換成人的語言說出來)
聽到:AI平時都是出于休眠狀態(tài),那該如何讓AI聽到主人的話呢?
可以運用“語音激活”技術(shù)和“聲紋識別”等技術(shù)。“語音激活”將AI從休眠狀態(tài)激活。常見的“語音激活”有2詞、3詞(4詞以上就不太好用了,誰愿意喊四個字的名字?)比如:Rokid的“若琪”,百度的“度秘”,分身魚的“小魚”;AI通過“聲紋識別”找出不同的發(fā)音單元,做出不同的回應(yīng)(人和人的發(fā)音、語調(diào)都有所不同)。
聽清:如果周圍雜音較大,該如何聽到主人的聲音?
可以從設(shè)備和算法兩方面入手,使用“麥克風(fēng)降噪”和“回聲消除”等技術(shù)。
聽懂:AI源于搜索,搜索源于文字,故目前AI識別文字(未來AI可不可以直接識別語音,這很有可能實現(xiàn)喲)。那當(dāng)我們聽清楚這句語音了,那我們該如何將語音轉(zhuǎn)化為AI才能識別的文字,并理解這句話的含義呢?
運用“語音識別”和“自然語言處理”等技術(shù)。“語音識別”又叫語音轉(zhuǎn)文字技術(shù)(STT),可以實現(xiàn)將語音轉(zhuǎn)換成文字;“自然語言處理”對文字的理解,并推測接下來如何做!
反饋:AI將答案整理出來,卻仍是文字形式,還需AI將文字轉(zhuǎn)成語音說出來,怎么做呢?
運用“語音合成技術(shù)”(TTS)和“回音消除”等技術(shù)。“語音合成”技術(shù)把文本轉(zhuǎn)換成人的語言讀出來。由于AI自己講話時,可能AI正在放著音樂,那就需要用到“回音消除”技術(shù),努力使AI說的話更加清晰。
(學(xué)習(xí)資料整理“Rokid博士團分享”)