閱讀時長:30min
閱讀關鍵詞:語音交互模型建立,Alexa,亞馬遜開發者平臺使用
閱讀后,也許能get以下內容:
- 初步了解語音交互模型設計原則
- 了解語音交互模型要素
- 了解亞馬遜Alexa開發平臺概況
首先,強調一下我也是剛剛入門的菜鳥,所以目前的分享更多是參考Alexa,Google Assistant,Siri等開發者文檔,以學習筆記的方式結合一些自己的思考來輸出內容。期望更多的小伙伴能多多指教,一起學習,在CUI,VUI設計,語音Skill開發等方面繼續前行。這個是亞馬遜開發平臺進行語音Skill開發的技術文檔鏈接,感興趣的小伙伴一起學習哇!Amazon開發者平臺創建Alexa skill參考
如果想要在amazon平臺上開發一個語音應用(skill),我們需要建立一個語音交互模型。
Amazon為開發者提供了兩種方式來創建一個語音交互模型。一個是使用skill builder(beta)來定義意圖(intents),槽位(slots),對話(dialog);另一個是用Json或者text自定義交互模型。前者對新手和缺乏編程經驗的開發者比較友好,因為它集成了一個可視化的操作界面,直接根據提示依次輸入意圖,槽位,和對話,即可生成相應的代碼,后者則需要自己根據kit調用相關的函數,編寫程序來進行語音建模。下面兩張圖展現了兩種方法不同的操作界面。在本篇博文中,主要給大家介紹一下語音交互模型的設計要素和基本建模步驟。
為了定義NLP能處理語音交互模型,我們需要將云上可處理的意圖和用戶的語句進行映射。為了完成映射,我們需要輸入以下4類信息:
1 意圖Intents:意圖代表能實現用戶語音需求的行動。意圖很多時候會帶有很多參數,稱為槽位。
2 示例語句Sample utterances:關于某意圖盡可能全的示例語句。
3 自定義槽位類型 Custom slot types:關于槽位可能值的代表性列表,當所使用的槽位并非亞馬遜內置槽位類型時,需要羅列出個列表來。
4 對話模型 dialog model(非強制):當用戶和skill間存在多輪對話時,需要建立對話模型來明確每一輪對話收集到的信息最終可以滿足意圖。
意圖和槽位 Intents&Slots
意圖代表能實現用戶語音需求的行動。意圖很多時候會帶有很多關鍵詞參數,稱為槽位。
例如:一個旅行計劃語音應用,意圖定義為:旅行計劃。而這個意圖下包含3個槽位來使得應用可以幫助用戶進行旅行計劃,分別是:{出發城市},{到達城市},{旅行日期}。當用戶說:
User: Alexa, ask Plan My Trip to plan a trip from Seattle to Portland on Friday.
這里會首先識別出plan a trip意圖,然后掉用該意圖函數,其中實現這個意圖的功能需要獲取槽位中的信息,觸發槽位去識別需要的信息,經過相關功能函數處理后,返回給用戶一個計劃結果。
所以,從這個例子中我們看出,建立自然語言交互模型,最重要的就是明確意圖和槽位。在亞馬遜和包括Google都提供了很多內置的意圖和槽位,不需要開發者再去定義意圖函數,或者是槽位值,只需要引用內置意圖和槽位即可。目前,亞馬遜提供了25類145種內置意圖,12種內置槽位。
Alexa槽位類型參考
Alexa內置意圖參考
更多關于意圖和槽位的詳細介紹可以關注我之后的博文。
示例語句 Sample Utterance
每一個意圖都需要對應盡量多的示例語句。示例語句需要通過一些特定詞匯短語來觸發意圖功能函數,例如有槽位的情況下,一定要展現清楚槽位。
例如旅行計劃應用的示例query可以如下:
i want to visit {toCity}
清楚展現了到達城市這個槽位。關于示例語句,建議1個意圖最少20句示例。示例語句的編寫可以選擇在亞馬遜的beta環境上建立完成,也可以直接用js/java編寫好后粘貼入開發者平臺的Interaction Model tab。
多輪對話和對話模型
多輪對話指的是,用戶和應用之間的對話不只是用戶說出一個指令,應用給出一個執行結果,它支持語音應用對用戶提出問題,再根據用戶的回答來完善需要的信息,最終填滿所有槽位以觸發意圖。或者說就是用戶和應用雙方的對話不只一輪,而是有問有答的狀態。
建立多輪對話的規則如下:
- 為了最終實現意圖,槽位的選擇和賦值都必須是有效合理的。
- 回答的槽位值在獲取后需要再次向用戶確認準確性以及完整性,才能進入下一步;
- 應用反問用戶的語句需要包含對槽位,和意圖的確認。
例如,在旅行計劃應用中,用戶說:
I want to visit Beijing
這個時候,應用收到消息后,發現只收到了{tocity}這個槽位的值,還需要確認{fromcity},{Date}的值。
于是它會開始針對缺失槽位值一一進行發問。一次問一個。對話大概如下:
user: I want to visit Beijing.
skill: Do you want to visit Beijing?
user: yes!
skill: where is your departure?
user: Seattle
skill: Seattle , yep?
user: Yep!
skill: Got it.When will you leave?
user: Next week!
skill:Next week,right?
user: yes!
user: ok! I've choosed 3 travel routes for you.First,.......
模型創建
上述就是我們在建立一個語音模型是需要的4類信息。在亞馬遜平臺上,我們除了利用js,java,python,基于kit進行在開發者平臺上上傳代碼,實現功能外,我們還可以使用相對簡單友好的亞馬遜skill builder(beta)。skill builder界面如下。
skill builder使用指南
A.
The Dashboard 展現了目前已創建的意圖信息和槽位信息。
B.
左邊的導航欄可以進行意圖,槽位的添加,以及可以很清楚的看到關鍵的函數和關鍵字段命名。
C.
選擇一個意圖編寫它的示例語句,槽位,以及對話。這里展現了該意圖下的所有槽位,選擇槽位可以編輯它的類型,以及對話信息。
D.
選擇槽位類型,編輯槽位的取值表。取值表包括自定義的槽位類型,以及內置類型但是用戶自定義添加的槽位取值。
E.
存儲模型主要是存數據,不管數據是否合理,可以用來創建。但是建立模型要求數據是合理的,點選后才能成功創建模型。
F.
創建好后再進行與云服務上功能的鏈接,測試,然后發布。
在之后的博文會介紹,意圖和槽位的設置,以及作為一個編程菜鳥如何在亞馬遜開發者平臺編寫一個語音Skill。