對話系統任務綜述與POMDP對話系統

本文轉自中國中文信息學會青年工作委員會

作者：李林琳，趙世奇

（注：本文的第一部分主要內容基于“Review of spoken dialogue systems”（López-Cózar et al., 2015）；第二部分翻譯自英文原文“POMDP-based statistical spoken dialog systems: A review”（Yong et al., 2013））

摘要：本文第一部分對對話系統的領域研究現狀做一個領域綜述，第二部分我們詳細介紹一下當今對話領域的一個熱門課題：基于POMDP的統計對話管理系統。首先，我們對對話系統涉及的五種主要技術做一個綜合介紹；然后，我們簡要討論一下對話系統的發展歷史及其在健康等領域的應用實例。由于對話系統的一個核心組成部分是用戶，我們還會簡單討論一下用戶建模及其類型；接下來我們討論一下對話系統的研究趨勢，包括語音識別、多模交互、以及對話管理系統的主流研發技術。在第二部分，我們集中介紹基于統計的POMDP對話系統所涉及的思想及具體建模方法。

第一部分：對話系統概述

隨著人機交互技術的進步，類似“環境智能（Ambient Intelligence）”這類課題更多的強調用戶友好性和智能交互性。為了確保自然的智能交互，非常有必要研發安全可靠的交互技術以在人機之間建立溝通的橋梁。本著這個初衷，過去的幾十年有很多研究致力于模仿人-人交互的模式來構建人機交互系統，我們稱之為對話系統（Spoken Dialogue Systems, SDSs）（Lopez-Cozar & Araki, 2005; McTear, 2004; Pieraccini, 2012）。

最早的對話系統僅僅處理簡單的交流任務，比如提供飛行旅行信息（Hempel, 2008）。當今的對話系統已經越來越多的出現在更復雜的任務中，比如，智能環境（Intelligent Environments, Heinroth & Minker, 2013）, 車載系統（Geutner et al., 2002），個人助手（Janarthanam et al., 2013），智能家居（Krebber et al., 2004），及人機交互（Foster et al., 2014）等。對話系統涉及的另外一個重要課題是用戶建模（Andrade et al., 2014）。

本文第一部分我們對對話系統的領域研究現狀做一個任務綜述，并指出該領域的研究趨勢，其中各小節內容如下：1）對話系統涉及的五種關鍵技術；2）對話系統的演進歷史以及相關的科研項目；3）對話系統用戶建模；4）對話系統課題的研究趨勢；更智能化、多樣化，且具有可移植性以及多模功能。本文的第二部分將討論一種具體的數據驅動的統計對話系統。

對話系統通常涉及五個主要的模塊：

語音識別（ASR）

口語理解（SLU）

對話管理（DM）

自然語言生成（NLG）

文本生成語音（TTS）

由于ASR模塊和TTS模塊涉及聲音信號的處理，不是本文的重點，我們僅限于討論SLU, DM以及NLG三個模塊。需要說明的是，對話系統還常常有一個單獨的模塊來存儲對話歷史。

1.1.1 口語理解（SLU）

口語理解是語音識別模塊的下游模塊，其任務是獲取輸入語音信號的語義表示，該語義通常以frame的形式表示（Allen, 1995）。而每一個frame通常又包含多個槽位，例如，在飛機訂票系統中，一個SLU的frame通常包含如下槽位:

speechActType

departureCity

destinationCity

departureDate

arrivalDate

airline

一個示例SLU模塊的輸出如下：

speechActType：訂票

departureCity：北京

destinationCity：上海

……

SLU模塊的高精度實現是很困難的，因為語言中常常帶有歧義、人稱代詞、指示代詞、以及省略成分。該模塊的實現有兩種主流的方式，要么借助于句法分析，要么利用統計機器學習，也可以是兩者結合（Griol et al., 2014）。SLU模塊也常常借助于對話歷史模塊的信息，其目的是搜索用戶最近的對話歷史找到當前query中沒有顯式提到的信息以更好的理解對話。

同時，口語理解系統還應該具有較好的魯棒性來處理語音識別的錯誤和噪音。相關的技術有，放寬語法檢查尺度，僅關注關鍵詞；或對識別的句子進行部分分析，提取關鍵成分。很多統計方法在這方面有所應用，如（Lemon & Pietquin, 2012）等。

1.1.2 對話管理（DM）

口語理解的下游模塊是對話管理器DM。該模塊的任務是決定系統如何回復給定的用戶輸入（McTear, 2004）, 例如，向用戶提供信息，向用戶發出詢問以確認系統理解，或者請求用戶換一種句型表達需求。在上述飛機訂票的對話系統實例中，DM可能會決定觸發一個詢問請求讓用戶來確認“出發城市”這個槽位的值是不是“北京”，其觸發原因可能是語音識別系統對“北京”這個詞的置信度值過低。

為了給用戶提供信息，對話管理器通常需要查詢數據庫或者互聯網，同時它還需要考慮對話歷史模塊提供的信息。例如，DM模塊可能根據對話歷史上下文發出詢問請求以補充缺失數據。對話管理模塊模式可以有多種：rule-based, plan-based和基于增強學習的（Frampton & Lemon, 2009）。本文的第二部分將詳細討論數據驅動的對話系統POMDP。

1.1.3 自然語言生成（NLG）

對話管理器的決策會輸出給下游模塊進行自然語言生成（NLG）。由于對話管理器的輸出是抽象表達，我們的目標是將其轉換為句法和語義上合法的自然語言句子，同時考慮對話上下文的連貫性（Lemon, 2011）。許多主流的自然語言生成系統是基于模板的，其根據句子的類型制定相應的模板（Baptist & Seneff, 2000）。這些模版的某些成分是固定的，而另一些成分需要根據對話管理器的輸出結果進行填充。例如，下述模板可以用來生成句子以表示兩個城市間的航班。

我查到了趟號到的航班。

在該模板中，尖括號部分需要根據對話管理器的輸出值進行填充，填充后該NLG模塊輸出為：我查到了30趟20號從北京到上海的航班。

考慮到對話系統的連貫性，NLG在生成語句的時候通常需要根據對話上下文綜合考慮。相關技術涉及如何省略表達，即，省略前文中已經提到概念，或者使用代詞指代前文已經出現的名詞。該過程依賴對話歷史模塊的存儲信息。NLG模塊還需要過濾冗余重復信息，該過程又被稱為句子聚合（Dalianis，1999）。除了基于模板的NLG技術以外，最近也有一些基于統計的方式進行自然語言生產，如（Dethlefs et al., 2013; Rieser et al., 2014）。由于篇幅限制，本文不對相關技術一一介紹。

1.2 對話系統的發展歷程

對話系統的歷史可以追溯到18、19世紀，最早是利用機械方式制造機器人來模仿人類行為，該學科的發展具有較長的演進史。

1.2.1 早期系統以及科研項目

20世紀初，Stewart（1922）發明了用電能產生聲音的機器。20世紀40年代出現了第一臺計算機，隨后圖靈提出了智能計算機的概念（Turing, 1950）。60年代第一次出現了處理自然語言的計算機系統，例如，ELIZA（Weizenbaum，1966）基于關鍵詞提取以及預定義模板將用戶輸入轉換為系統回答。而隨著語音識別、自然語言處理和語音合成等技術的發展，80年代第一次出現了對話系統，兩個代表性項目是：美國的DARPA口語系統和歐洲的Esprit SUNDIAL系統。在這兩個對話系統之后，MIT和CMU相繼進行了一系列對話系統的研究。90年代，DARPA Communicator項目由美國政府資助進行語音技術研發。到如今，SDSs的研發已涉及更廣的技術，包括智能推理、多模交互以及跨語種交互等等（Heinroth & Minker, 2013）。

1.2.2 應用實例

SDSs有著廣泛的應用實例，包括自動旅游旅行信息系統（Glass et al., 1995），天氣預報系統（Zue et al., 2000），銀行系統（Hardy et al., 2006; Melin et al., 2001）和會議協作系統（Andreani et al., 2006）等。我們僅就其在健康領域和embodied agent領域的應用做一個簡要介紹。

健康領域：

SDSs在醫療應用中能協助診療病人，例如，Bickmore & Giorgino (2006)研發了對話診斷系統，該系統用對話方式和病人交流，診斷疾病。該研究對于不方便現場就診的病人具有現實意義，同時有助于處理個人隱私和敏感信息問題。一些病人無法很好的當面與醫護工作者交流，第一，因為診療時間非常有限；第二，病人有可能忌諱一些非常隱私的問題（比如酗酒、抑郁、艾滋病等）。但是，智能對話系統就能有效的解決這些問題（Ahmad et al., 2009）。

過去的20年中，SDSs已廣泛的應用在醫療領域，如醫療咨詢（Ghanem et al., 2005; Hubal & Day, 2006; Pfeifer & Bickmore, 2010），慢性病監測（Black et al., 2005），輔助開藥(Bickmore et al., 2010), 飲食引導（Delichatsios et al., 2001），幫助戒煙（Ramelson et al., 1999），及醫療診斷（Maglogiannis et al., 2009）。

Embodied Agent：

SDSs另一個常用場景是Embodied Agent. 該領域相關的系統原型有：COLLAGEN (Rich & Sidner, 1998), AVATALK (Hubal & Day, 2006) ，COMIC (Catizone et al., 2003)，以及智能對話系統NICE（Corradini et al., 2004）。

1.3 用戶建模

用戶建模是SDSs的一個重要課題，其過程不僅僅局限于在對話系統設計階段建設靜態的profile，也可以根據用戶狀態建立動態profile。SDSs可以根據用戶的語音信息，說話狀態及情景建立大量的用戶profile數據，然后利用這些數據理解用戶對話，并預測用戶行為。更具體來說，用戶建模涉及情感建模（Balahur et al., 2014; Schuller & Batliner, 2013; Moors et al., 2013），人物性格建模（Nass & Yen, 2012），和上下文場景建模（Zhu & Sheng, 2011）等主要技術。

1.4 研究趨勢

語言是人類的特殊能力，SDSs是AI領域的一個高難度題目，因為它涉及多個語言相關的子領域，如語音識別、語音合成、語言理解、語義表示、對話管理、語言生產、情感建模、以及多模交互。Grand View Research公司做的一項研究調查報告顯示2012年對話系統的市場市值大約為3.5億美金，該公司預測到2020年會增長31.7%。同時該項報告還指出，考慮到市場以及經濟效應，人工客服領域將是未來SDSs的一個大方向。下面我們討論一下SDSs主要研究方向。

1.4.1 語音識別

對話系統一個重要的組件是語音識別，其輸出錯誤是SDSs所面臨的第一個難題，未來如何降低語音識別噪音仍是一個大方向。其相關的技術有：降低背景噪音，預測用戶輸入，以及ASR系統情感識別（Batliner et al., 2010）。不同于傳統的基于HMM的語音識別，新趨勢越來越多的依賴深度學習（Dahl et al., 2011）。考慮到語音識別錯誤可能直接導致下游的對話管理器無法正確理解語義，降低語音識別噪音任重道遠。

1.4.2 多模交互

口語理解是SDSs另一個重要組成部分，其輸入不僅僅依賴于語音，還依賴于用戶表情、動作等多模信號（Bui, 2006; Lopez-Cozar, 2005）。該方面的研究很多，如歐盟的Horizon 2020項目的一個子領域是語言技術(ICT-22-2014)，其致力于多模計算機交互。SDSs多模技術還包括語義多模融合（Russ et al., 2005），以及借助多模信號降低語音識別模塊噪音（Longe et al., 2012）。

1.4.3 ?對話管理

對話管理器是協調人機交互的中心模塊，它是一個相對成熟的研究課題，大致可分為如下四種類型 (Jurafsky & Martin, 2009)：

基于有限狀態和對話語法

基于Frame的系統

信息狀態更新（ISU）

馬爾可夫決策過程（MDPs）和部分可觀測的馬爾可夫過程（POMDPs）

有限狀態模型認為對話是一個狀態轉移序列圖，圖中每一個結點表示隱含的對話狀態，對應于系統行為（如回答、詢問、確認、等等），結點之間的狀態轉移控制對話流。Nuance的自動銀行系統就是根據這種方法設計的（McTear, 2002）。有限狀態模型常應用于自助語音服務系統，其優點是簡單易實現，缺點是缺乏靈活性，難以處理復雜對話邏輯。

Frame-based系統在前面簡單介紹過，其基本思想是填槽位。該方法可以在當前對話輪中填一個或者多個槽位，也可以覆寫或修正前面對話輪的填充內容。基于Frame的對話管理系統還有一些衍生系統，如agenda（Bohus & Rudnicky, 2003）， task structure graphs，和type hierarchies and blackboards (Rothkrantz et al., 2004)等。

ISU方式利用“信息狀態”將對話過程的所有可用信息進行建模（Larsson & Traum, 2000），即整合對話參與者的所有信息，而后建模對話行為。

以上三種對話管理模式都需要計算語言學專家設計并編寫對話方案，該策略會增加對話系統的設計開發成本，同時也會降低系統的可維護性。為了克服這些局限性，近來出現了基于機器學習的對話管理系統，典型的代表是MDP和POMDP。這些系統的基本思想是利用統計框架從大量的對話語料中自動學習對話管理模型（Young et al., 2013）。這種方式有兩個主要的優點：第一，可以將不確定性表示引入到模型中，相對基于規則的系統，其對語音和語義理解的噪音有更好的魯棒性。第二，這種框架具有自動學習功能，可以極大的降低人工開發成本。當然，這種方法也存在缺點，首先我們需要收集大量的對話數據，然后還需要對這些數據進行標注。在本文第二部分，我們集中討論基于POMDPs的統計對話管理系統。

第二部分：基于POMDP的統計對話管理系統

統計對話管理系統是一種數據驅動的方法，無需人工構建對話管理機制，具有較好的魯棒性。部分可觀察的馬爾可夫決策過程（POMDPs）具有良好的數據驅動性，但問題是完整的建模和優化計算代價巨大，甚至不可實現。在實際過程中，需對POMDP-based的系統近似優化求解，以下內容將對POMDP-based的系統的領域現狀做一個綜合介紹。

2.1 概述

傳統的SDS的主要組成部分如下圖1所示。口語理解模塊（SLU）將語言轉換成抽象語義表示，即用戶對話行為u.t ，而后系統更新其內部狀態s.t ，然后系統通過決策規則a.t = pi(s.t) 確定系統行為，最后語言生成模塊（NLG）將系統行為 a.t轉化為自然語言字符串。其中，狀態變量 s.t包含跟蹤對話過程的變量，以及表示用戶需求的屬性值（又稱為slots）。在傳統對話系統中，決策規則是通過流程圖的方式實現的，圖中的結點表示狀態和行為，而邊則表示用戶輸入（Oshry et al., 2009; Paek & Pieraccini, 2008）。

圖 1. 對話系統的主要組成部分

盡管語音識別技術在過去的幾十年不斷進步，但是在噪音環境中（如公共場所或者汽車內）的語音識別錯誤率仍高達15%-30%（Lippmann, 1997; Black et al., 2011）。對話處理機制必須要處理噪音問題，包括自動檢錯和恢復。正因為如此，傳統的基于流程圖的對話管理系統非常難以制定和維護。

新型的對話管理系統基于部分可觀察的馬爾可夫決策過程（POMDPs）（Williams & Young, 2007），該方法假定對話過程是馬爾可夫決策過程，也就是說，對話初始狀態是s.0 , 每一個后續狀態用轉移概率來表示：p(s.t | s.(t-1), a.(t-1)) 。狀態變量s.t 是無法直接觀察到的，它代表了對用戶需求理解的不確定程度。系統把SLU的輸出看作是一個帶噪音的基于用戶輸入的觀察值，這個觀察值的概率為p（o.t | s.t），這里的轉移概率和生成概率用恰當的隨機統計模型表示，又稱為對話模型M，而每個步驟中采取哪個行動則由另一個隨機模型控制，該模型稱之為對話策略P。在對話過程中，每一步還需要一個回報函數來體現理想中的對話系統特性。對話模型M和對話策略P的優化是通過最大化回報函數的期望來實現的，該過程可以通過直接用戶交互在線訓練，也可以利用離線的語料庫訓練。詳見下圖2.

圖 2. 基于POMDP的對話系統

基于POMDP的對話系統融合了兩個核心觀點：置信狀態跟蹤和增強學習。這兩個方面可以放在同一個框架下學習。與傳統方式相比，該方法具有如下優點：

1）??????????? 置信狀態為語音識別噪聲提供了更好的魯棒性（Williams & Yong,

2007）。置信狀態在用戶輸入后的后驗概率可以借助于一種稱為“置信監督（belief monitoring）”的貝葉斯推理過程更新。在設計置信狀態的過程中，可以借助模型先驗概率去捕捉用戶行為，而借助推理過程去探索所有的識別假設空間，如模糊網絡和N-best lists。其特點是，融合多輪證據以降低單個錯誤的影響。與傳統方法不同，用戶的反復行為是得到激勵的，如果用戶足夠多次的重復一種表達，系統對他們所說的內容的置信度也會隨之增加（前提是正確的假設候選出現在N-best lists中）。

2）??????????? 通過保存各個狀態的置信分布，系統可以并行的追蹤各種對話路徑，它不是貪婪的選擇當前最優解而是綜合考慮各種狀態的全局解。當用戶輸入一個負反饋信號時，當前最可能解的概率被降低，焦點會聚集到另外一個狀態。因此，不需要回溯或者修改對話機制。強大的對話策略可以簡單的嵌入置信狀態到對話行為的映射中。

3）??????????? 顯式的表達狀態和行為能將回報函數和狀態行為對關聯起來。其回報綜合值組成了對話效果的客觀衡量標準，因此可以用離線語料庫或者在線用戶互動方式，借助增強學習提升效果。該方法具有最優的決策策略，避免了人工調優的勞動，可以容納復雜的規劃機制。

然而在實踐中運用POMDP并不容易，有許多實際問題需要解決。SDS的狀態行為空間巨大，求解這個空間需要復雜的算法和軟件。實時的貝葉斯推理也非常難，完整的POMDP的學習策略是不可實現的，因此必須利用近似法求解。優化基于POMDP的SDS的最直接方式是通過直接用戶對話。但是，通常難以找到足夠數量的用戶幫助訓練系統，所以實踐中常常通過用戶模仿器的方式來對參數模型進行優化。

2.2 部分可觀察的馬爾可夫決策過程

部分可觀察的馬爾可夫決策過程用一個多元組（S, A, T, R, O, Z, r, b.0）表示，其中S是狀態集；A是行為集合；T表示轉移概率 p(s.t | s.(t-1), a.(t-1)); R是回報的期望值；O是觀測值集合；Z代表觀測概率p(o.t | s.t, a.(t-1)) 是幾何衰減系數，其值在0-1之間；b.0 是置信狀態的初始值。

POMDP的過程如下：在每一個過程中，真實世界是一個無法觀察的狀態s.t 。因為 s.t是未知的，變量置信狀態b.t 表示所有可能狀態的分布， b.t(s.t)表示處在某個特定狀態 s.t的概率。系統基于 b.t選擇行為a.t ，得到一個激勵值 r.t，然后轉化到狀態s.(t+1) ，這里僅僅依賴于s.t?和 a.t。然后系統得到一個觀察值o.(t+1) ，該值依賴于 s.(t+1)和a.t 。這個過程如圖3所示：

圖 3. 用influence diagram表示POMDP；圓圈表示隱變量，帶陰影的圓圈表示觀測值，方塊表示系統行為，棱形表示回報值，箭頭表示因果關系。

給定置信狀態b.t ，最近一次的系統行為a.t 以及觀察值 o.(t+1)，新的置信狀態b.(t+1) 的更新可以表示如下（Kaelbling et al., 1998）：

這里

是正規化常量， b.o是系統沒有任何行動之前的初始置信狀態分布。

系統行為由策略pi 控制。最通用的策略是直接將置信狀態和行為進行直接映射pi(b)∈A ，或者通過一個概率函數進行對應pi(a,b)∈[0,1] ，這里是在置信狀態b下采取行動a的概率，其滿足

以置信狀態為開始的策略的綜合回報函數定義如下：

該公式對應確定性策略（deterministic policy）；

該公式對應隨機策略（stochastic policy）。

最佳對話策略通過優化回報函數得到：

該策略也稱為Bellman優化公式（Bellman, 1957）。在POMDP參考文獻中，尋找最優策略的過程稱之為“求解”和“優化”過程。Kaelbling et al. （1998）應用了精確求解方案，（Pineau et al., 2003; Smith & Simmons, 2004）提出了近似求解方案。但問題是通用的POMDP方法復雜度高，難以大規模的應用到實用對話系統。即使中小型規模，其涉及的狀態、行為、和觀察值很容易達到10的10次方量級。窮舉p(s.(t+1)|s.t, a.t) 是不可實現的，因此，直接優化更新置信狀態優化回報函數并不可行。通常情況下，我們需要簡化模型近似求解。接下來我們將詳細討論。

2.3 置信狀態表示和監測

本小節集中討論圖2中對話系統模型M。實用SDS中，狀態必須包含三種不同類型的信息：用戶的目標g.t , 用戶的真實意圖 u.t，以及對話歷史h.t （Williams & Young, 2007）。用戶目標包含需要完成任務所有信息，用戶真實意圖是指用戶實際想表達的意圖而非系統識別出的意圖，對話歷史跟蹤之前的對話流。由此，對話中的一個狀態包含三個因子：

引入條件獨立性假設以后，該過程可以表示為圖4。將狀態分解成以上三個因子可以對狀態轉移矩陣進行降維，同時也減少了系統的條件依賴性。

圖 4 表示SDS-POMDP各個狀態因子的influence diagram

結合置信更新和狀態因子兩公式，SDS的更新策略可以表示為：

以上公式包含了對話系統的四個要素：

(a)??? 觀察模型表示給定用戶真實表達u，觀察值o的概率。它包含了語音識別系統的錯誤率。

(b)??? 用戶模型表示在給定系統前一輪輸出和當前系統狀態下，用戶真實表達u的概率。它建模了用戶行為。

(c)???? 目標轉移模型表現了用戶目標轉換的可能性。

(d)??? 歷史模型：系統記憶的對話歷史。

雖然狀態因子模型極大的簡化了POMDP模型的復雜度，但是它仍舊復雜，難以在實際的系統中應用。因此還需要進一步近似化處理，通常有兩種常用技術：

1)???? N-best方法，包括剪枝和重組（Gasic & Yong, 2011）

2)???? 貝葉斯網絡法（Thomson & Yong, 2010）

2.4 策略模型和增強學習

策略模型P提供了置信狀態b和系統行為a的映射。我們的目標是尋找一個最優的策略最大化對話回報函數的綜合期望。

POMDP的置信空間是一個高維空間。置信空間中臨近的點必須具有相同的行為值，因此，有必要用一種策略將置信空間的點進行區域劃分，確保同區域的點具有相同的行為值。當然，該行為映射必須保證讓每一個區域都有最佳的行為值。POMDP系統的策略模型可以通過壓縮置信空間（Crook & Lemon， 2011）或者動態狀態賦值（Doshi & Roy, 2008）實現。現實應用中，我們通常需要對策略進行簡化表示以降低推理復雜度。

我們可以根據實際應用加一些限定條件。首先，通常的對話系統僅僅用到相對小的置信空間；第二，可行行為的范圍在給定的置信空間內通常是限定的。由此，這里有一個精簡的特征空間，我們稱之為summary space。其中，狀態和行為都被簡化以方便策略表示和優化（Williams & Yong, 2005; Williams & Yong, 2007）。Summary space是全局問題空間的一個子空間，belief tracking在整個問題空間中求解，而決策執行和策略優化僅在summary space中運行。問題空間和summary space中的運行方案如下：在置信更新后，問題空間中的置信狀態b被映射為一個特征向量和候選行為集合{ }。策略從一系列的候選行為集合中選取，然后將summary space中的映射回原問題空間中一個完整的行為a。

Summary space的轉換需要兩個組成部分：問題空間中選擇候選行為的機制，以及從置信狀態和候選行為中抽取特征的函數。最簡單的選取候選行為的方法是將可以對應到概念以及槽位（如：地點類型、食物類型、星級評價、等等）的對話行為（如：問候、問題、肯定、告知、等等）都包括在內，然后通過置信度對各個槽位賦值（Thomson & Young, 2010; Williams & Young, 2005）。該方法是全自動的，但它可能會包含一些錯誤的候選行為，如在對話的正中間進行問候，或者在沒有被問到某個值的時候，對該值進行確認。另外一類選擇候選行為的方法是partial program（Andre & Russell, 2002; Williams, 2008），或者馬爾可夫邏輯網絡（Lison, 2010）。這類方法可以在對話流中任意容納人工知識，同時顯式設定業務邏輯，比如，在進行資金轉賬之前要求輸入用戶密碼。同時，限定候選行為空間能更快的收斂到最優策略，因為它已經將很多的錯誤候選排除在外（Williams, 2008）。但是，這些規則需要人工制定，而人工規則可能錯誤的將最優候選行為排除在外。作為一種折衷方案，有些系統允許每一個對話行為作為候選，但通過人工規則限定對話行為槽位（Yong et al., 2010）。

Summary space轉換的第二個重要組成部分是從置信狀態以及候選行為中抽取特征的函數。我們通常為每一個對話行為構建一個二進制特征，也可以針對每一個有效的行動／槽位對，例如confirm(food). 這種方式通常會產生20-30維的行為特征，其每一維表示一個唯一行為。狀態特征通常是異構的，包含實數值，二進制值，和枚舉類值。典型的狀態特征包括：最重要的N個用戶目標的置信度；各個槽位的marginal belief；最重要的用戶目標屬性（如，匹配到的數據庫實體的數量）；表示哪些系統行為可行的隱變量；對話歷史屬性值（如，是否已確認最重要的用戶目標）；歷史用戶行為；或者上述特征的組合（Thomson & Yong, 2010; Williams & Yong, 2005; Williams, 2008; Yong et al., 2010）。通常系統具有5到25個特征，這些特征一般是手工選取的，也有些研究探索自動特征選取（Williams & Balakrishnan, 2009）。狀態特征不僅僅局限于置信狀態信息，也可以在置信狀態以外尋找特征，如數據庫中的信息，過去的對話歷史，或者上下文信息。

給定一個特定的summary space，策略可以用表示為一個顯示的映射pi(b)->a ，或者表示為一個概率分布pi(a,b) = p(a|b) ，后者行為的選取是通過對概率分布的抽樣實現的。策略是summary belief state（狀態）及action（行為）的函數，而不是原始問題空間的置信狀態和行為。可以認為新函數是對原問題空間的近似，也可以認為是另一個馬爾可夫過程，在這個過程中狀態和行為是summary state和summary action。

在顯式的映射策略中，最常用的方法是尋找一個行為a以最大化Q函數（回報函數的數學期望），即：

這里的Q函數可以是帶參數的，也可以是無參的。如果不帶參數，置信狀態會在一個離散的編碼集{b.l }中, 對任意一個狀態b.l 都可以計算出其Q值。

有五種常用的方法來優化策略：1）planning under uncertainty；2）value iteration；3）Monte-Carlo優化；4）最小平方策略迭代（LSPI）；5）natural actor-critic （NAC）. 這五種方式常常應用在end-to-end的對話系統中。除此之外，還有Q-learning（Scheffler & Young, 2002）和SARSA（Henderson et al., 2008）等方法。由于篇幅限制，我們不對這些策略做一一介紹，感興趣的讀者可以閱讀相關參考文獻。

總的來說，planning under uncertainty策略將置信狀態作為概率分布，而value iteration和Monte-Carlo優化需要首先將置信空間量化，LSPI和NAC基于置信狀態特征的線性模型進行函數近似。

2.5 用戶模擬器

直接從語料庫中學習對話策略存在很多問題，比如收集數據中的狀態空間可能與策略優化數據不同。另外，這種方式無法在線互動學習。因此我們可以構建一個用戶模擬器，讓這個模擬器與對話系統直接進行互動。用戶模擬器不僅僅可以用來學習對話系統，也可以用它來評估對話系統（Schatzmann et al., 2006）。用戶模擬器通常運行在抽象對話行為層。給定一系列的用戶行為和系統回復，其目標是對用戶回復的概率分布進行有效的建模：

正如前文提到的，在實際系統中對話管理系統的觀測值被噪音變量影響，因此用戶回復同時被用戶模型和噪音模型控制。模型p(u.t|….) 匹配在語料中的用戶回復，另外需要error model建模語音識別及理解錯誤（Hastie, 2012; Pietquin & Hastie, 2012; Schatzmann et al., 2005; Williams, 2008）。

2.6 系統和應用

前面的幾個小節講述了統計對話系統的幾個主要模塊，其相關的技術在隨著時間進步完善。盡管在商業上推廣這些技術有一定的難度，但是在具體的場景中已有一定范圍應用。這里我們簡單的提幾個基于POMDP框架的對話系統。

這些系統大多都是非正式的inquiry系統，包括語音呼叫（Janarthanam et al., 2011），旅游信息（Thomson & Yong, 2010），日程安排（Kim & Lee, 2007）和汽車導航（Kim et al., 2008）等。POMDP也可應用于基于命令控制的系統，如通過多模接口控制家電（Williams, 2007）。

POMDP曾在CMU舉辦的“Let’s Go”競賽任務中被應用，其為Pittsburgh區域的居民播報非忙時段的公交車信息（Thomson et al., 2010）。在該應用中，用戶可能從多種不同的手機裝置來電，且通話環境通常有噪音，結果顯示，基于POMDP的系統明顯優于傳統系統（Black et al., 2011）。

2.7 小結

統計對話系統提出數據驅動的框架，該方式可以有效的降低人工編寫復雜對話管理規則的開銷，同時對在噪音環境中的語音識別錯誤具有良好的魯棒性。通過一個顯式的對不確定性建模的貝葉斯模型和一種回報驅動的策略優化機制，POMDP建立了一個良好的對話系統框架。

但是，基于POMDP的對話系統非常復雜，通常需近似求解。這里有許多實際的研究問題，例如，如何在保持模型的復雜度的同時，讓置信狀態序列可解？如何減少策略學習的迭代次數，從而能在真實用戶上訓練模型而不是借助用戶模擬器？同時，還需要將對話系統打包以及平臺化以使得非專家也能使用這些技術。

除此之外，POMDP框架嚴重依賴回報函數。原則上來說，這是對話系統的優點，因為它可以提供一個客觀的目標機制定義對話系統的設計標準。但是，實際應用中，我們很難直接從用戶那里獲得可信的回報信號，即使是最簡單的成功／失敗也很難獲得，比如，在被問到“系統是否回答了你所問的問題？”時，許多用戶出于禮貌會直接說“是”，或者由于對系統不切實際的過高期望而直接回答“否”。回報函數可以基于用戶滿意度來獲取，而該滿意度值可以通過客觀的可以衡量的特征進行回歸計算獲取，該方法在PARADISE系統（Levin et al., 1997）上有所應用，也有其他的研究（Singh et al., 1999）在這個思路框架下進行。盡管如此，很多經驗告訴我們，根據真實用戶反饋的在線學習策略必須要結合成熟的生物識別技術，用客觀標準測量用戶情感滿意度。

總結

本文對對話系統的領域研究現狀做了一個整體介紹。對話系統的核心問題是處理多輪交互，讓人機之間的互動高效、自然、智能。在本文中我們涉及了對話系統的主要任務模塊，并做了簡單的概述，同時指出了對話系統所面臨的問題和挑戰。我們還介紹了對話系統的演進歷史及其應用實例，并從口語交流、多模交互和對話管理方面介紹了該領域的研究趨勢。接下來，本文詳細介紹了POMDP統計對話管理器的相關技術及領域現狀，同時也指出了其中的問題及面臨的挑戰。

參考文獻

López-Cózar, & R., Araki, M. (2005). Spoken, multilingual and multimodal dialogue systems: Development and assessment. John Wiley

López-Cózar, R., Callejas, Z., Griol, D., & Quesada, J. F. (2015). Review of spoken dialogue systems. Loquens, 1(2), e012.

McTear, M. F. (2002). Spoken dialogue technology: Enabling the conversational user interface. ACM Computing Surveys, 34(1), 90–169.http://dx.doi.org/10.1145/505282.505285

McTear, M. F. (2004). Spoken dialogue technology. Toward the conversational user interface. Springer. http://dx.doi.org/10.1007/978-0-85729-414-2

Pieraccini, R. (2012). The voice in the machine: Building computers that understand speech. Cambridge, MA: MIT Press.

Hempel, T. (2008). Usability of speech dialogue systems: Listening to the target audience. Springer.

Heinroth, T., & Minker, W. (2013). Introducing spoken dialogue systems into Intelligent Environments. New York: Springer.http://dx.doi.org/10.1007/978-1-4614-5383-3

Geutner, P., Steffens, F., & Manstetten, D. (2002). Design of the VICO spoken dialogue system: Evaluation of user expectations by Wizard-of-Oz experiments. Proceedings of the 3rd International Conference on Language Resources and Evaluation (LREC ‘02),Canary Islands.

Janarthanam, S., Lemon, O., Liu, X., Bartie, P., Mackaness, W., & Dalmas, T. (2013). A multithreaded conversational interface for pedestrian navigation and question answering. Proceedings of the 14th Annual Meeting of the Special Interest Group on Discourse and Dialogue (SIGDIAL), 151–153.

Krebber, J. M?ller, S., Pegam, R., Jekosch, U., Melichar, M., & Rajman, M. (2004). Wizard-of-Oz tests for a dialog system in smart homes. Paper presented at the Joint Congress CFA/DAGA ’04, Strasbourg.

Foster, M. E., Giuliani, M., & Isard, A. (2014). Task-based evaluation of context-sensitive referring expressions in human-robot dialogue.Language, Cognition and Neuroscience, 29(8), 1018–1034. http://dx.doi.org/10.1080/01690965.2013.855802

Andrade, A. O., Pereira, A. A., Walter, S., Almeida, R., Loureiro, R., Compagna, D., & Kyberd, P. J. (2014). Bridging the gap between robotic technology and health care. Biomedical Signal Processing and Control, 10, 65–78.http://dx.doi.org/10.1016/j.bspc.2013.12.009

Allen, J. (1995).Natural language understanding. Redwood City, CA: The Benjamin Cummings.

Callejas, Z., Griol, D., Engelbrecht, K.-P., & López-Cózar, R. (2014). A clustering approach to assess real user profiles in spoken dialogue systems. In J. Mariani, S. Rosset, M. Garnier-Rizet & L. Devillers (Eds.), Natural interaction with robots, knowbots and smartphones (pp. 327–334). New York: Springer.http://dx.doi.org/10.1007/978-1-4614-8280-2_29

Griol, D., Callejas, Z., López-Cózar, R., & Riccardi, G. (2014). A domain-independent statistical methodology for dialog management in spoken dialog systems. Computer Speech and Language, 28(3), 743–768. http://dx.doi.org/10.1016/j.csl.2013.09.002

Lemon, O. (2011). Learning what to say and how to say it: Joint optimisation of spoken dialogue management and natural language generation. Computer Speech and Language, 25(2), 210–221. http://dx.doi.org/10.1016/j.csl.2010.04.005

Lemon, O., & Pietquin, O. (Eds.) (2012). Data-driven methods for adaptive spoken dialogue systems: Computational learning for conversational interfaces. Springer. http://dx.doi.org/10.1007/978-1-4614-4803-7

Frampton, M., & Lemon, O. (2009). Recent research advances in reinforcement learning in spoken dialogue systems. Knowledge Engineering Review, 24(4), 375–408. http://dx.doi.org/10.1017/S0269888909990166

Baptist, L., & Seneff, S. (2000). GENESIS-II: A versatile system for language generation in conversational system applications.Proceedings of the 6th International Conference on Spoken Language Processing (ICSLP ’00), 3, 271–274.

Dalianis, H. (1999). Aggregation in natural language generation. Computational Intelligence, 15(4), 384–414.http://dx.doi.org/10.1111/0824-7935.00099

Dethlefs, N., Hastie, H., Cuayáhuitl, H., & Lemon, O. (2013). Conditional random fields for responsive surface realisation using global features. Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (ACL), 1254–1263.

Rieser, V., Lemon, O., & Keizer, S. (2014). Natural language generation as incremental planning under uncertainty: Adaptive information presentation for statistical dialogue systems. IEEE/ACM Transactions on Audio, Speech and Language Processing, 22(5), 979–994. http://dx.doi.org/10.1109/TASL.2014.2315271

Stewart, J. Q. (1922). An electrical analogue of the vocal organs. Nature, 110, 311–312. http://dx.doi.org/10.1038/110311a0

Turing, A. (1950). Computing machinery and intelligence. Mind, 236, 433–460. http://dx.doi.org/10.1093/mind/LIX.236.433

Weizenbaum, J. (1966). ELIZA–A computer program for the study of natural language communication between man and machine.Communications of the ACM, 9(1), 36–45. http://dx.doi.org/10.1145/365153.365168

Glass, J., Flammia, G., Goodine, D., Phillips, M., Polifroni, J., Sakai, S., … & Zue, V. (1995). Multilingual spoken-language understanding in the MIT Voyager system. Speech Communication, 17(1–2), 1–18. http://dx.doi.org/10.1016/0167-6393(95)00008-C

Zue, V., Seneff, S., Glass, J. R., Polifroni, J., Pao, C., Hazen, T. J., & Hetherington, L. (2000). JUPITER: A telephone-based conversational interface for weather information. IEEE Transactions on Speech and Audio Processing, 8, 85–96.http://dx.doi.org/10.1109/89.817460

Hardy, H., Biermann, A., Bryce Inouye, R., McKenzie, A., Strzalkowski, T., Ursu, C., … & Wu, M. (2006). The AMITIéS system: Data-driven techniques for automated dialogue. Speech Communication, 48(3–4), 354–373.http://dx.doi.org/10.1016/j.specom.2005.07.006

Melin, H., Sandell, A., & Ihse, M. (2001). CTT-bank: A speech controlled telephone banking system–An initial evaluation. TMH-QPSR 42(1), 1–27.

Andreani, G., Di Fabbrizio, D., Gilbert, M., Gillick, D., Hakkani-Tur, D., & Lemon, O. (2006). Let’s DISCOH: Collecting an annotated open corpus with dialogue acts and reward signals for natural language helpdesks. IEEE 2006 Workshop on Spoken Language Technology, 218–221. http://dx.doi.org/10.1109/SLT.2006.326794

Bickmore, T., & Giorgino, T. (2006). Health dialog systems for patients and consumers. Journal of Biomedical Informatics, 39(5), 556–571. http://dx.doi.org/10.1016/j.jbi.2005.12.004

Ahmad, F., Hogg-Johnson, S., Stewart, D. E., Skinner, H. A., Glazier, R. H., & Levinson, W. (2009). Computer-assisted screening for intimate partner violence and control: A randomized trial. Annals of Internal Medicine, 151(2), 93–102.http://dx.doi.org/10.7326/0003-4819-151-2-200907210-00124

Ghanem, K. G., Hutton, H. E., Zenilman, J. M., Zimba, R., & Erbelding, E. J. (2005). Audio computer assisted self interview and face to face interview modes in assessing response bias among STD clinic patients. Sexually Transmitted Infections, 81(5), 421–425.http://dx.doi.org/10.1136/sti.2004.013193

Hubal, R., & Day, R. S. (2006). Informed consent procedures: An experimental test using a virtual character in a dialog systems training application. Journal of Biomedical Informatics, 39(5), 532–540. http://dx.doi.org/10.1016/j.jbi.2005.12.006

Pfeifer, L. M., & Bickmore, T. (2010). Designing embodied conversational agents to conduct longitudinal health interviews. Proceedings of Intelligent Virtual Agents, 4698–4703.

Black, L. A., McTear, M. F., Black, N. D., Harper, R., & Lemon, M. (2005). Appraisal of a conversational artefact and its utility in remote patient monitoring. Proceedings of the 18th IEEE Symposium on Computer-Based Medical Systems, 506–508.http://dx.doi.org/10.1109/CBMS.2005.33

Bickmore, T. W., Puskar, K., Schlenk, E. A., Pfeifer, L. M., & Sereika, S. M. (2010). Maintaining reality: Relational agents for antipsychotic medication adherence. Interacting with Computers, 22(4), 276–288. http://dx.doi.org/10.1016/j.intcom.2010.02.001

Delichatsios, H., Friedman, R. H., Glanz, K., Tennstedt, S., Smigelski, C., Pinto, B., … & Gillman, M. W. (2001). Randomized trial of a “talking computer” to improve adults’ eating habits. American Journal of Health Promotion, 15(4), 215–224.http://dx.doi.org/10.4278/0890-1171-15.4.215

Ramelson, H. Z., Friedman, R. H., & Ockene, J. K. (1999). An automated telephone-based smoking cessation education and counseling system. Patient Education and Counseling, 36(2), 131–144. http://dx.doi.org/10.1016/S0738-3991(98)00130-X

Maglogiannis, I., Zafiropoulos, E., & Anagnostopoulos, I. (2009). An intelligent system for automated breast cancer diagnosis and prognosis using SVM based classifiers. Applied Intelligence, 30(1), 24–36. http://dx.doi.org/10.1007/s10489-007-0073-z

Rich, C., & Sidner, C. L. (1998). COLLAGEN: A collaboration manager for software interface agents. User Modeling and User-Adapted Interaction, 8(3–4), 315–350. http://dx.doi.org/10.1023/A:1008204020038

Catizone, R., Setzer, A., & Wilks, Y. (2003). Multimodal dialogue management in the COMIC project. Proceedings of the EACL-03 Workshop on ’Dialogue Systems: Interaction, Adaptation and Styles of Management’. European Chapter of the Association for Computational Linguistics, 25–34.

Corradini, A., Fredriksson, M., Mehta, M., K?nigsmann, J., Bernsen, N. O., & Johanneson, L. (2004). Towards believable behavior generation for embodied conversational agents. Proceedings of the Workshop on Interactive Visualisation and Interaction Technologies (IV&IT), 946–953.

Balahur, A., Mihalcea, R., & Montoyo, A. (2014). Computational approaches to subjectivity and sentiment analysis: Present and envisaged methods and applications. Computer Speech and Language, 28(1), 1–6. http://dx.doi.org/10.1016/j.csl.2013.09.003

Schuller, B. W., & Batliner, A. (2013). Computational paralinguistics: Emotion, affect and personality in speech and language processing. John Wiley & Sons. http://dx.doi.org/10.1002/9781118706664

Moors, A., Ellsworth, P. C., Scherer, K. R., & Frijda, N. H. (2013). Appraisal theories of emotion: State of the art and future development. Emotion Review, 5(2), 119–124. http://dx.doi.org/10.1177/1754073912468165

Nass, C., & Yen, C. (2012). The man who lied to his laptop: What we can learn about ourselves from our machines. Current Trade.

Zhu, C., Sheng, W. (2011). Motion- and location-based online human daily activity recognition. Pervasive and Mobile Computing, 7(2), 256–269. http://dx.doi.org/10.1016/j.pmcj.2010.11.004

Batliner, A., Seppi, D. Steidl, S., & Schuller, B. (2010). Segmenting into adequate units for automatic recognition of emotion-related episodes: A speech-based approach. Advances in Human Computer Interaction, 2010. http://dx.doi.org/10.1155/2010/782802

Dahl, G. E., Yu, D., Deng, L., & Acero, A. (2012). Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition. IEEE Transactions on Audio, Speech and Language Processing, 20(1), 30–42.http://dx.doi.org/10.1109/TASL.2011.2134090

Bui, T. H. (2006). Multimodal dialogue management- State of the art. Human Media Interaction Department, University of Twente (Vol. 2).

Russ, G., Sallans, B., & Hareter, H. (2005). Semantic based information fusion in a multimodal interface. Proceedings of the International Conference on Human–Computer Interaction, HCI ’05, Las Vegas. Lawrence Erlbaum.

Longé, M., Eyraud, R., & Hullfish, K.C. (2012). Multimodal disambiguation of speech recognition. U.S. Patent No. 8095364 B2. Retrieved from http://www.google.com/patents/US8095364

Jurafsky, D., & Martin, J. H. (2009). Speech and language processing: An introduction to natural language processing, speech recognition, and computational linguistics (2nd ed.). Prentice Hall.

Bohus, D., & Rudnicky, A. I. (2003). RavenClaw: Dialog management using hierarchical task decomposition and an expectation agenda.Proceedings of the 8th European Conference on Speech Communication and Technology. EUROSPEECH 2003–INTERSPEECH 2003, 597–600.

Rothkrantz, L. J. M., Wiggers, P., Flippo, F., Woei-A-Jin, D., & van Vark, R. J. (2004). Multimodal dialogue management. Lecture Notes in Computer Science, 3206, 621–628. http://dx.doi.org/10.1007/978-3-540-30120-2_78

Larsson, S. & Traum, D. R. (2000). Information state and dialogue management in the TRINDI dialogue move engine toolkit. Natural Language Engineering, 6(4), 323–340. http://dx.doi.org/10.1017/S1351324900002539

Young, S., Gasic, M., Thomson, B., & Williams, J. D. (2013). POMDP-based statistical spoken dialog systems: A review. Proceedings of the IEEE, 101(5), 1160–1179. http://dx.doi.org/10.1109/JPROC.2012.2225812

M. Oshry, P. Baggia, K. Rehor, M. Young, R. Akolkar, X. Yang, J. Barnett, R. Hosn, R. Auburn, J. Carter, S. McGlashan, M. Bodell, and D. C. Burnett, Voice extensible markup language (VoiceXML) 3.0, W3C, W3C Working Draft, Dec. 2009. [Online]. Available: http://www.w3.org/TR/2009/ WD-voicexml30-20091203/.

T. Paek and R. Pieraccini, ‘‘Automating spoken dialogue management design using machine learning: An industry perspective,’’ Speech Commun., vol. 50, no. 8–9, pp. 716–729, 2008.

R. P. Lippmann, ‘‘Speech recognition by machines and humans,’’ Speech Commun., vol. 22, no. 1, pp. 1–15, 1997.

A. Black, S. Burger, A. Conkie, H. Hastie, S. Keizer, O. Lemon, N. Merigaud, G. Parent, G. Schubiner, B. Thomson, J. Williams, K. Yu, S. Young, and M. Eskenazi, ‘‘Spoken dialog challenge 2010: Comparison of live and control test results,’’ in Proc. Annu. Meeting Special Interest Group Discourse Dialogue, Portland, OR, 2011, pp. 2–7.

J. Williams and S. Young, ‘‘Partially observable Markov decision processes for spoken dialog systems,’’ Comput. Speech Lang., vol. 21, no. 2, pp. 393–422, 2007.

L. Kaelbling, M. Littman, and A. Cassandra, ‘‘Planning and acting in partially observable stochastic domains,’’ Artif. Intell., vol. 101, pp. 99–134, 1998.

R. E. Bellman, Dynamic Programming. Princeton, NJ: Princeton Univ. Press, 1957.

J. Pineau, G. Gordon, and S. Thrun, ‘‘Point-based value iteration: An anytime algorithm for POMDPs,’’ in Proc. Int. Joint Conf. Artif. Intell., Acapulco, Mexico, 2003, pp. 1025–1032.

T. Smith and R. G. Simmons, ‘‘Heuristic search value iteration for POMDPs,’’ in Proc. Conf. Uncertainty Artif. Intell., Banff, AB, Canada, 2004, pp. 520–527.

M. Gasic and S. Young, ‘‘Effective handling of dialogue state in the hidden information state POMDP dialogue manager,’’ ACM Trans. Speech Lang. Process., vol. 7, no. 3, 2011, Article 4.

B. Thomson and S. Young, ‘‘Bayesian update of dialogue state: A POMDP framework for spoken dialogue systems,’’ Comput. Speech Lang., vol. 24, no. 4, pp. 562–588, 2010.

P. A. Crook and O. Lemon, ‘‘Lossless value directed compression of complex user goal states for statistical spoken dialogue systems,’’ in Proc. Annu. Conf. Int. Speech Commun. Assoc., Florence, Italy, 2011, pp. 1029–1032.

F. Doshi and N. Roy, ‘‘The permutable POMDP: Fast solutions to POMDPs for preference elicitation,’’ in Proc. Int. Joint Conf. Autonom. Agents Multiagent Syst., 2008, pp. 493–500.

J. Williams and S. Young, ‘‘Scaling up POMDPs for dialog management: The ‘summary POMDP’ method,’’ in Proc. IEEE Workshop Autom. Speech Recognit. Understand., Cancun, Mexico, 2005, pp. 177–182.

J. Williams and S. Young, ‘‘Scaling POMDPs for spoken dialog management,’’ IEEE Trans. Audio Speech Lang. Process., vol. 15, no. 7, pp. 2116–2129, Jul. 2007.

D. Andre and S. Russell, ‘‘State abstraction for programmable reinforcement learning agents,’’ in Proc. 18th Nat. Conf. Artif. Intell., Edmonton, AB, Canada, 2002, pp. 119–125.

J. D. Williams, ‘‘The best of both worlds: Unifying conventional dialog systems and POMDPs,’’ in Proc. Annu. Conf. Int. Speech Commun. Assoc., Brisbane, Australia, 2008, pp. 1173–1176.

P. Lison, ‘‘Towards relational POMDPs for adaptive dialogue management,’’ in Proc. Annu. Meeting Assoc. Comput. Linguist., Uppsala, Sweden, 2010, pp. 7–12.

S. Young, M. Gasˇic′, S. Keizer, F. Mairesse, J. Schatzmann, B. Thomson, and K. Yu, ‘‘The hidden information state model: A practical framework for POMDP-based spoken dialogue management,’’ Comput. Speech Lang., vol. 24, no. 2, pp. 150–174, 2010.

L. Li, J. D. Williams, and S. Balakrishnan, ‘‘Reinforcement learning for dialog management using least-squares policy iteration and fast feature selection,’’ in Proc. Annu. Conf. Int. Speech Commun. Assoc., Brighton, U.K., 2009, pp. 2475–2478.

O. Pietquin, M. Geist, S. Chandramohan, and H. Frezza-Buet, ‘‘Sample-efficient batch reinforcement learning for dialogue management optimization,’’ ACM Trans. Speech Lang. Process., vol. 7, no. 3, pp. 1–21, 2011.

K. Scheffler and S. Young, ‘‘Automatic learning of dialogue strategy using dialogue simulation and reinforcement learning,’’ in Proc. 2nd Int. Conf. Human Lang. Technol. Res., San Diego, CA, 2002, pp. 12–19.

J. Henderson, O. Lemon, and K. Georgila, ‘‘Hybrid reinforcement/supervised learning of dialogue policies from fixed datasets,’’ Comput. Linguist., vol. 34, no. 4, pp. 487–511, 2008.

J. Schatzmann, K. Weilhammer, M. Stuttle, and S. Young, ‘‘A survey of statistical user simulation techniques for reinforcement-learning of dialogue management strategies,’’ Knowl. Eng. Rev., vol. 21, no. 2, pp. 97–126, Jun. 2006.

H. Hastie, ‘‘Metrics and evaluation of spoken dialogue systems,’’ in Data-Driven Methods for Adaptive Spoken Dialogue Systems: Computational Learning for Conversational Interfaces. New York: Springer-Verlag, 2012.

O. Pietquin and H. Hastie, ‘‘A survey on metrics for the evaluation of user simulations,’’ Knowl. Eng. Rev., 2012, DOI:http://dx.doi.org/10.1017/ S0269888912000343.

J. Schatzmann, K. Georgila, and S. Young, ‘‘quantitative evaluation of user simulation techniques for spoken dialogue systems,’’ in Proc. Annu. Meeting Special Interest Group Discourse Dialogue, Lisbon, Portugal, 2005, pp. 45–54.

J. Williams, ‘‘Evaluating user simulations with the Cramervon Mises divergence,’’ Speech Commun., vol. 50, pp. 829–846, 2008.

S. Janarthanam, H. Hastie, O. Lemon, and X. Liu, ‘‘‘The day after the day after tomorrow?’ A machine learning approach to adaptive temporal expression generation: Training and evaluation with real users,’’ in Proc. Annu. Meeting Special Interest Group Discourse Dialogue, Portland, OR, 2011, pp. 142–151.

K. Kim and G. G. Lee, ‘‘Multimodal dialog system using hidden information state dialog manager,’’ in Proc. Int. Conf. Multimodal Interfaces Demonstration Session, Nagoya, Japan, 2007.

K. Kim, C. Lee, S. Jung, and G. Lee, ‘‘A frame-based probabilistic framework for spoken dialog management using dialog examples,’’ in Proc. Special Interest Group Discourse Dialogue (SIGDIAL) Workshop Discourse Dialogue, Columbus, OH, 2008, pp. 120–127.

J. Williams, ‘‘Applying POMDPs to Dialog Systems in the Troubleshooting Domain,’’ in Proc. HLT/NAACL Workshop Bridging the Gap: Acad. Ind. Res. Dialog Technol., Rochester, NY, 2007, pp. 1–8.

B. Thomson, K. Yu, S. Keizer, M. Gasic, F. Jurcicek, F. Mairesse, and S. Young, ‘‘Bayesian dialogue system for the let’s go spoken dialogue challenge,’’ in Proc. IEEE Spoken Lang. Technol. Workshop, Berkeley, CA, 2010, pp. 460–465.

E. Levin, R. Pieraccini, and W. Eckert, ‘‘Learning dialogue strategies within the Markov decision process framework,’’ in Proc. IEEE Workshop Autom. Speech Recognit. Understand., Santa Barbara, CA, 1997, pp. 72–79.

S. Singh, M. Kearns, D. Litman, and M. Walker, ‘‘Reinforcement learning for spoken dialogue systems,’’ in Proc. Neural Inf. Process. Syst., 1999.

原文參考：http://www.cipsc.org.cn/qngw/?p=957

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 228,923評論 6贊 535
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 98,740評論 3贊 420
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 176,856評論 0贊 380
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 63,175評論 1贊 315
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 71,931評論 6贊 410
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 55,321評論 1贊 324
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,383評論 3贊 443
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,533評論 0贊 289
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 49,082評論 1贊 335
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 40,891評論 3贊 356
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 43,067評論 1贊 371
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,618評論 5贊 362
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,319評論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,732評論 0贊 27
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,987評論 1贊 289
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,794評論 3贊 394
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 48,076評論 2贊 375

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

對話系統任務綜述與POMDP對話系統

對話系統任務綜述與POMDP對話系統

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

對話系統任務綜述與POMDP對話系統

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频