微軟亞洲研究院:NLP將迎來黃金十年

微軟亞洲研究院:NLP將迎來黃金十年

比爾·蓋茨曾說過,「語言理解是人工智能皇冠上的明珠」。自然語言處理(NLP,Natural Language Processing)的進(jìn)步將會推動人工智能整體進(jìn)展。

NLP 的歷史幾乎跟計算機(jī)和人工智能(AI)的歷史一樣長。自計算機(jī)誕生,就開始有了對人工智能的研究,而人工智能領(lǐng)域最早的研究就是機(jī)器翻譯以及自然語言理解。

在 1998 年微軟亞洲研究院成立之初,NLP 就被確定為最重要的研究領(lǐng)域之一。歷經(jīng)二十載春華秋實(shí),在歷屆院長支持下,微軟亞洲研究院在促進(jìn) NLP 的普及與發(fā)展以及人才培養(yǎng)方面取得了非凡的成就。共計發(fā)表了 100 余篇 ACL 大會文章,出版了《機(jī)器翻譯》和《智能問答》兩部著作,培養(yǎng)了 500 名實(shí)習(xí)生、20 名博士和 20 名博士后。我們開發(fā)的 NLP 技術(shù)琳瑯滿目,包括輸入法、分詞、句法/語義分析、文摘、情感分析、問答、跨語言檢索、機(jī)器翻譯、知識圖譜、聊天機(jī)器人、用戶畫像和推薦等,已經(jīng)廣泛應(yīng)用于 Windows、Office、Bing、微軟認(rèn)知服務(wù)、小冰、小娜等微軟產(chǎn)品中。我們與創(chuàng)新技術(shù)組合作研發(fā)的微軟對聯(lián)和必應(yīng)詞典,已經(jīng)為成千上萬的用戶提供服務(wù)。

過去二十年,NLP 利用統(tǒng)計機(jī)器學(xué)習(xí)方法,基于大規(guī)模的帶標(biāo)注的數(shù)據(jù)進(jìn)行端對端的學(xué)習(xí),取得了長足的進(jìn)步。尤其是過去三年來,深度學(xué)習(xí)給 NLP 帶來了新的進(jìn)步。其中在單句翻譯、抽取式閱讀理解、語法檢查等任務(wù)上,更是達(dá)到了可比擬人類的水平。

基于如下的判斷,我們認(rèn)為未來十年是 NLP 發(fā)展的黃金檔:

來自各個行業(yè)的文本大數(shù)據(jù)將會更好地采集、加工、入庫。

來自搜索引擎、客服、商業(yè)智能、語音助手、翻譯、教育、法律、金融等領(lǐng)域?qū)?NLP 的需求會大幅度上升,對 NLP 質(zhì)量也提出更高要求。

文本數(shù)據(jù)和語音、圖像數(shù)據(jù)的多模態(tài)融合成為未來機(jī)器人的剛需。這些因素都會進(jìn)一步促進(jìn)對 NLP 的投資力度,吸引更多人士加入到 NLP 的研發(fā)中來。因此我們需要審時度勢、抓住重點(diǎn)、及時規(guī)劃,面向更大的突破。

因此,NLP 研究將會向如下幾個方面傾斜:

將知識和常識引入目前基于數(shù)據(jù)的學(xué)習(xí)系統(tǒng)中。

低資源的 NLP 任務(wù)的學(xué)習(xí)方法。

上下文建模、多輪語義理解。

基于語義分析、知識和常識的可解釋 NLP。

重點(diǎn)知識:NLP 的技術(shù)進(jìn)展

自然語言處理,有時候也稱作自然語言理解,旨在利用計算機(jī)分析自然語言語句和文本,抽取重要信息,進(jìn)行檢索、問答、自動翻譯和文本生成。人工智能的目的是使得電腦能聽、會說、理解語言、會思考、解決問題,甚至?xí)?chuàng)造。它包括運(yùn)算智能、感知智能、認(rèn)知智能和創(chuàng)造智能幾個層次的技術(shù)。計算機(jī)在運(yùn)算智能即記憶和計算的能力方面已遠(yuǎn)超人類。而感知智能則是電腦感知環(huán)境的能力,包括聽覺、視覺和觸覺等等,相當(dāng)于人類的耳朵、眼睛和手。目前感知智能技術(shù)已取得飛躍性的進(jìn)步;而認(rèn)知智能包括自然語言理解、知識和推理,目前還待深入研究;創(chuàng)造智能目前尚無多少研究。比爾·蓋茨曾說過,「自然語言理解是人工智能皇冠上的明珠」。NLP 的進(jìn)步將會推動人工智能整體進(jìn)展。

NLP 在深度學(xué)習(xí)的推動下,在很多領(lǐng)域都取得了很大進(jìn)步。下面,我們就來一起簡單看看 NLP 的重要技術(shù)進(jìn)展。

神經(jīng)機(jī)器翻譯

神經(jīng)機(jī)器翻譯就是模擬人腦的翻譯過程。

翻譯任務(wù)就是把源語言句子轉(zhuǎn)換成語義相同的目標(biāo)語言句子。人腦在進(jìn)行翻譯的時候,首先是嘗試?yán)斫膺@句話,然后在腦海里形成對這句話的語義表示,最后再把這個語義表示轉(zhuǎn)化到另一種語言。神經(jīng)機(jī)器翻譯就是模擬人腦的翻譯過程,它包含了兩個模塊:一個是編碼器,負(fù)責(zé)將源語言句子壓縮為語義空間中的一個向量表示,期望該向量包含源語言句子的主要語義信息;另一個是解碼器,它基于編碼器提供的語義向量,生成在語義上等價的目標(biāo)語言句子。

神經(jīng)機(jī)器翻譯模型的優(yōu)勢在于三方面:一是端到端的訓(xùn)練,不再像統(tǒng)計機(jī)器翻譯方法那樣由多個子模型疊加而成,從而造成錯誤的傳播;二是采用分布式的信息表示,能夠自動學(xué)習(xí)多維度的翻譯知識,避免人工特征的片面性;三是能夠充分利用全局上下文信息來完成翻譯,不再是局限于局部的短語信息。基于循環(huán)神經(jīng)網(wǎng)絡(luò)模型的機(jī)器翻譯模型已經(jīng)成為一種重要的基線系統(tǒng),在此方法的基礎(chǔ)上,從網(wǎng)絡(luò)模型結(jié)構(gòu)到模型訓(xùn)練方法等方面,都涌現(xiàn)出很多改進(jìn)。

神經(jīng)機(jī)器翻譯系統(tǒng)的翻譯質(zhì)量在不斷取得進(jìn)步,人們一直在探索如何使得機(jī)器翻譯達(dá)到人類的翻譯水平。2018 年,微軟亞洲研究院與微軟翻譯產(chǎn)品團(tuán)隊(duì)合作開發(fā)的中英機(jī)器翻譯系統(tǒng),在 WMT2017 新聞領(lǐng)域測試數(shù)據(jù)集上的翻譯質(zhì)量達(dá)到了與人類專業(yè)翻譯質(zhì)量相媲美的水平 (Hassan et al., 2018)。該系統(tǒng)融合了微軟亞洲研究院提出的四種先進(jìn)技術(shù),其中包括可以高效利用大規(guī)模單語數(shù)據(jù)的聯(lián)合訓(xùn)練和對偶學(xué)習(xí)技術(shù),以及解決曝光偏差問題的一致性正則化技術(shù)和推敲網(wǎng)絡(luò)技術(shù)。

智能人機(jī)交互

智能人機(jī)交互包括利用自然語言實(shí)現(xiàn)人與機(jī)器的自然交流。其中一個重要的概念是「對話即平臺」。

「對話即平臺(CaaP,Conversation as a Platform)是微軟首席執(zhí)行官薩提亞·納德拉 2016 年提出的概念,他認(rèn)為圖形界面的下一代就是對話,并會給整個人工智能、計算機(jī)設(shè)備帶來一場新的革命。

薩提亞之所以提出這個概念是因?yàn)椋菏紫龋从诖蠹叶家呀?jīng)習(xí)慣用社交手段,如微信、Facebook 與他人聊天的過程。我們希望將這種交流過程呈現(xiàn)在當(dāng)今的人機(jī)交互中。其次,大家現(xiàn)在面對的設(shè)備有的屏幕很小(比如手機(jī)),有的甚至沒有屏幕(比如有些物聯(lián)網(wǎng)設(shè)備),語音交互更加自然和直觀。對話式人機(jī)交互可調(diào)用 Bot 來完成一些具體的功能,比如訂咖啡,買車票等等。許多公司開放了 CAAP 平臺,讓全世界的開發(fā)者都能開發(fā)出自己喜歡的 Bot 以便形成一個生態(tài)。

面向任務(wù)的對話系統(tǒng)比如微軟的小娜通過手機(jī)和智能設(shè)備讓人與電腦進(jìn)行交流,由人發(fā)布命令,小娜理解并完成任務(wù)。同時,小娜理解你的習(xí)慣,可主動給你一些貼心提示。而聊天機(jī)器人,比如微軟的小冰負(fù)責(zé)聊天。無論是小娜這種注重任務(wù)執(zhí)行的技術(shù),還是小冰這種聊天系統(tǒng),其實(shí)背后單元處理引擎無外乎三層技術(shù):第一層,通用聊天機(jī)器人;第二層,搜索和問答(Infobot);第三層,面向特定任務(wù)對話系統(tǒng)(Bot)。

聊天系統(tǒng)的架構(gòu)

機(jī)器閱讀理解

自然語言理解的一個重要研究課題是閱讀理解。

閱讀理解就是讓電腦看一遍文章,針對這些文章問一些問題,看電腦能不能回答出來。機(jī)器閱讀理解技術(shù)有著廣闊的應(yīng)用前景。例如,在搜索引擎中,機(jī)器閱讀理解技術(shù)可以用來為用戶的搜索(尤其是問題型的查詢)提供更為智能的答案。我們通過對整個互聯(lián)網(wǎng)的文檔進(jìn)行閱讀理解,從而直接為用戶提供精確的答案。同時,這在移動場景的個人助理,如微軟小娜(Cortana)里也有直接的應(yīng)用:智能客服中可使用機(jī)器閱讀文本文檔(如用戶手冊、商品描述等)來自動或輔助客服來回答用戶的問題;在辦公領(lǐng)域可使用機(jī)器閱讀理解技術(shù)處理個人的郵件或者文檔,然后用自然語言查詢獲取相關(guān)的信息;在教育領(lǐng)域用來可以用來輔助出題;在法律領(lǐng)域可用來理解法律條款,輔助律師或者法官判案;在金融領(lǐng)域里從非結(jié)構(gòu)化的文本(比如新聞中)抽取金融相關(guān)的信息等。機(jī)器閱讀理解技術(shù)可形成一個通用能力,第三方可以基于它構(gòu)建更多的應(yīng)用。

斯坦福大學(xué)在 2016 年 7 月發(fā)布了一個大規(guī)模的用于評測閱讀理解技術(shù)的數(shù)據(jù)集(SQuAD),包含 10 萬個由人工標(biāo)注的問題和答案。SQuAD 數(shù)據(jù)集中,文章片段(passage)來自維基百科的文章,每個文章片段(passage)由眾包方式,標(biāo)注人員提 5 個問題,并且要求問題的答案是 passage 中的一個子片段。標(biāo)注的數(shù)據(jù)被分成訓(xùn)練集和測試集。訓(xùn)練集公開發(fā)布用來訓(xùn)練閱讀理解系統(tǒng),而測試集不公開。參賽者需要把開發(fā)的算法和模型提交到斯坦福由其運(yùn)行后把結(jié)果報在網(wǎng)站上。

一開始,以 100 分為例,人的水平是 82.3 左右,機(jī)器的水平只有 74 分,機(jī)器相差甚遠(yuǎn)。后來通過不斷改進(jìn),機(jī)器閱讀理解性能得以逐步地提高。2018 年 1 月,微軟亞洲研究院提交的 R-Net 系統(tǒng)首次在 SQuAD 數(shù)據(jù)集上以 82.65 的精準(zhǔn)匹配的成績首次超越人類在這一指標(biāo)上的成績。隨后阿里巴巴、科大訊飛和哈工大的系統(tǒng)也在這一指標(biāo)上超越人類水平。標(biāo)志著閱讀理解技術(shù)進(jìn)入了一個新的階段。最近微軟亞洲研究院的 NL-Net 和谷歌的?BERT?系統(tǒng)又先后在模糊匹配指標(biāo)上突破人類水平。對于閱讀理解技術(shù)的推動,除了 SQuAD 數(shù)據(jù)集起到了關(guān)鍵作用之外,還有如下三個方的因素:首先,是端到端的深度神經(jīng)網(wǎng)絡(luò)。其次,是預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò);最后,是系統(tǒng)和網(wǎng)絡(luò)結(jié)構(gòu)上的不斷創(chuàng)新。

機(jī)器創(chuàng)作

機(jī)器可以做很多理性的東西,也可以做出一些創(chuàng)造性的東西。

早在 2005 年,微軟亞洲研究院在時任院長沈向洋的提議和支持下成功研發(fā)了《微軟對聯(lián)》系統(tǒng)。用戶出上聯(lián),電腦對出下聯(lián)和橫批,語句非常工整。

在此基礎(chǔ)上,我們又先后開發(fā)了格律詩和猜字謎的智能系統(tǒng)。在字謎游戲里,用戶給出謎面,讓系統(tǒng)猜出字,或系統(tǒng)給出謎面讓用戶猜出字。2017 年微軟研究院開發(fā)了電腦寫自由體詩系統(tǒng)、作詞譜曲系統(tǒng)。中央電視臺《機(jī)智過人》節(jié)目就曾播放過微軟的電腦作詞譜曲與人類選手進(jìn)行詞曲創(chuàng)作比拼的內(nèi)容。這件事說明如果有大數(shù)據(jù),那么深度學(xué)習(xí)就可以模擬人類的創(chuàng)造智能,也可以幫助專家產(chǎn)生更好的想法。

就作詞來說,寫一首歌詞首先要決定主題。比如想寫一首與「秋」,「歲月」,「滄桑」,「感嘆」相關(guān)的歌,利用詞向量表示技術(shù),可知「秋風(fēng)」、「流年」、「歲月」、「變遷」等詞語比較相關(guān),通過擴(kuò)展主題可以約束生成的結(jié)果偏向人們想要的歌詞,接著在主題模型的約束下用序列到序列的神經(jīng)網(wǎng)絡(luò),用歌詞的上一句去生成下一句,如果是第一句,則用一個特殊的序列作為輸入去生成第一句歌詞,這樣循環(huán)生成歌詞的每一句。

下面也簡介一下譜曲。為一首詞譜曲不單要考慮旋律是否好聽,也要考慮曲與詞是否對應(yīng)。這類似于一個翻譯過程。不過這個翻譯中的對應(yīng)關(guān)系比自然語言翻譯更為嚴(yán)格。它需嚴(yán)格規(guī)定每一個音符對應(yīng)到歌詞中的每一個字。例如每一句有 N 個字,那么就需要將這句話對應(yīng)的曲切分成 N 個部分,然后順序完成對應(yīng)關(guān)系。這樣在「翻譯」過程中要「翻譯」出合理的曲譜,還要給出曲與詞之間的對應(yīng)關(guān)系。我們利用了一個改進(jìn)的序列到序列的神經(jīng)網(wǎng)絡(luò)模型,完成從歌詞「翻譯」到曲譜的生成過程。

趨勢熱點(diǎn):值得關(guān)注的 NLP 技術(shù)

從最近的 NLP 研究中,我們認(rèn)為有一些技術(shù)發(fā)展趨勢值得關(guān)注,這里總結(jié)了五個方面:

熱點(diǎn)一,預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)

如何學(xué)習(xí)更好的預(yù)訓(xùn)練的表示,在一段時間內(nèi)繼續(xù)成為研究的熱點(diǎn)。

通過類似于語言模型的方式來學(xué)習(xí)詞的表示,其用于具體任務(wù)的范式得到了廣泛應(yīng)用。這幾乎成為自然語言處理的標(biāo)配。這個范式的一個不足是詞表示缺少上下文,對上下文進(jìn)行建模依然完全依賴于有限的標(biāo)注數(shù)據(jù)進(jìn)行學(xué)習(xí)。實(shí)際上,基于深度神經(jīng)網(wǎng)絡(luò)的語言模型已經(jīng)對文本序列進(jìn)行了學(xué)習(xí)。如果把語言模型關(guān)于歷史的那部分參數(shù)也拿出來應(yīng)用,那么就能得到一個預(yù)訓(xùn)練的上下文相關(guān)的表示。這就是 Matthew Peters 等人在 2018 年 NAACL 上的論文「Deep Contextualized Word Representations」的工作,他們在大量文本上訓(xùn)練了一個基于?LSTM?的語言模型。最近 Jacob Delvin 等人又取得了新的進(jìn)展,他們基于多層 Transformer 機(jī)制,利用所謂「MASKED」模型預(yù)測句子中被掩蓋的詞的損失函數(shù)和預(yù)測下一個句子的損失函數(shù)所預(yù)訓(xùn)練得到的模型「BERT」,在多個自然語言處理任務(wù)上取得了當(dāng)前最好的水平。以上提到的所有的預(yù)訓(xùn)練的模型,在應(yīng)用到具體任務(wù)時,先用這個語言模型的?LSTM?對輸入文本得到一個上下文相關(guān)的表示,然后再基于這個表示進(jìn)行具體任務(wù)相關(guān)的建模學(xué)習(xí)。結(jié)果表明,這種方法在語法分析、閱讀理解、文本分類等任務(wù)都取得了顯著的提升。最近一段時間,這種預(yù)訓(xùn)練模型的研究成為了一個研究熱點(diǎn)。

如何學(xué)習(xí)更好的預(yù)訓(xùn)練的表示在一段時間內(nèi)將繼續(xù)成為研究的熱點(diǎn)。在什么粒度(word,sub-word,character)上進(jìn)行預(yù)訓(xùn)練,用什么結(jié)構(gòu)的語言模型(LSTM,Transformer 等)訓(xùn)練,在什么樣的數(shù)據(jù)上(不同體裁的文本)進(jìn)行訓(xùn)練,以及如何將預(yù)訓(xùn)練的模型應(yīng)用到具體任務(wù),都是需要繼續(xù)研究的問題。現(xiàn)在的預(yù)訓(xùn)練大都基于語言模型,這樣的預(yù)訓(xùn)練模型最適合序列標(biāo)注的任務(wù),對于問答一類任務(wù)依賴于問題和答案兩個序列的匹配的任務(wù),需要探索是否有更好的預(yù)訓(xùn)練模型的數(shù)據(jù)和方法。將來很可能會出現(xiàn)多種不同結(jié)構(gòu)、基于不同數(shù)據(jù)訓(xùn)練得到的預(yù)訓(xùn)練模型。針對一個具體任務(wù),如何快速找到合適的預(yù)訓(xùn)練模型,自動選擇最優(yōu)的應(yīng)用方法,也是一個可能的研究課題。

熱點(diǎn)二,遷移學(xué)習(xí)和多任務(wù)學(xué)習(xí)

對于那些本身缺乏充足訓(xùn)練數(shù)據(jù)的自然語言處理任務(wù),遷移學(xué)習(xí)有著非常重要和實(shí)際的意義。多任務(wù)學(xué)習(xí)則用于保證模型能夠?qū)W到不同任務(wù)間共享的知識和信息。

不同的 NLP 任務(wù)雖然采用各自不同類型的數(shù)據(jù)進(jìn)行模型訓(xùn)練,但在編碼器(Encoder)端往往是同構(gòu)的。例如,給定一個自然語言句子 who is the Microsoft founder,機(jī)器翻譯模型、復(fù)述模型和問答模型都會將其轉(zhuǎn)化為對應(yīng)的向量表示序列,然后再使用各自的解碼器完成后續(xù)翻譯、改寫和答案生成 (或檢索) 任務(wù)。因此,可以將不同任務(wù)訓(xùn)練得到的編碼器看作是不同任務(wù)對應(yīng)的一種向量表示,并通過遷移學(xué)習(xí)(Transfer Learning)的方式將這類信息遷移到目前關(guān)注的目標(biāo)任務(wù)上來。對于那些本身缺乏充足訓(xùn)練數(shù)據(jù)的自然語言處理任務(wù),遷移學(xué)習(xí)有著非常重要和實(shí)際的意義。

多任務(wù)學(xué)習(xí)(Multi-task Learning)可通過端到端的方式,直接在主任務(wù)中引入其他輔助任務(wù)的監(jiān)督信息,用于保證模型能夠?qū)W到不同任務(wù)間共享的知識和信息。Collobert 和 Weston 早在 2008 年就最早提出了使用多任務(wù)學(xué)習(xí)在深度學(xué)習(xí)框架下處理 NLP 任務(wù)的模型。最近 Salesforce 的 McCann 等提出了利用問答框架使用多任務(wù)學(xué)習(xí)訓(xùn)練十項(xiàng)自然語言任務(wù)。每項(xiàng)任務(wù)的訓(xùn)練數(shù)據(jù)雖然有限,但是多個任務(wù)共享一個網(wǎng)絡(luò)結(jié)構(gòu),提升對來自不同任務(wù)的訓(xùn)練數(shù)據(jù)的綜合利用能力。多任務(wù)學(xué)習(xí)可以設(shè)計為對諸任務(wù)可共建和共享網(wǎng)絡(luò)的核心層次,而在輸出層對不同任務(wù)設(shè)計特定的網(wǎng)絡(luò)結(jié)構(gòu)。

熱點(diǎn)三,知識和常識的引入

如何在自然語言理解模塊中更好地使用知識和常識,已經(jīng)成為目前自然語言處理領(lǐng)域中一個重要的研究課題。

隨著人們對人機(jī)交互(例如智能問答和多輪對話)要求的不斷提高,如何在自然語言理解模塊中更好地使用領(lǐng)域知識,已經(jīng)成為目前自然語言處理領(lǐng)域中一個重要的研究課題。這是由于人機(jī)交互系統(tǒng)通常需要具備相關(guān)的領(lǐng)域知識,才能更加準(zhǔn)確地完成用戶查詢理解、對話管理和回復(fù)生成等任務(wù)。

最常見的領(lǐng)域知識包括維基百科和知識圖譜兩大類。機(jī)器閱讀理解是基于維基百科進(jìn)行自然語言理解的一個典型任務(wù)。給定一段維基百科文本和一個自然語言問題,機(jī)器閱讀理解任務(wù)的目的是從該文本中找到輸入問題對應(yīng)的答案短語片段。語義分析是基于知識圖譜進(jìn)行自然語言理解的另一個典型任務(wù)。給定一個知識圖譜(例如 Freebase)和一個自然語言問題,語義分析任務(wù)的目的是將該問題轉(zhuǎn)化為機(jī)器能夠理解和執(zhí)行的語義表示。目前,機(jī)器閱讀理解和語義分析可以說是最熱門的自然語言理解任務(wù),它們受到了來自全世界研究者的廣泛關(guān)注和深入探索。

常識指絕大多數(shù)人都了解并接受的客觀事實(shí),例如海水是咸的、人渴了就想喝水、白糖是甜的等。常識對機(jī)器深入理解自然語言非常重要,在很多情況下,只有具備了一定程度的常識,機(jī)器才有可能對字面上的含義做出更深一層次的理解。然而獲取常識卻是一個巨大的挑戰(zhàn),一旦有所突破將是影響人工智能進(jìn)程的大事情。另外,在 NLP 系統(tǒng)中如何應(yīng)用常識尚無深入的研究,不過出現(xiàn)了一些值得關(guān)注的工作。

熱點(diǎn)四,低資源的 NLP 任務(wù)

引入領(lǐng)域知識(詞典、規(guī)則)可以增強(qiáng)數(shù)據(jù)能力、基于主動學(xué)習(xí)的方法增加更多的人工標(biāo)注數(shù)據(jù)等,以解決數(shù)據(jù)資源貧乏的問題。

面對標(biāo)注數(shù)據(jù)資源貧乏的問題,譬如小語種的機(jī)器翻譯、特定領(lǐng)域?qū)υ捪到y(tǒng)、客服系統(tǒng)、多輪問答系統(tǒng)等,NLP 尚無良策。這類問題統(tǒng)稱為低資源的 NLP 問題。對這類問題,除了設(shè)法引入領(lǐng)域知識(詞典、規(guī)則)以增強(qiáng)數(shù)據(jù)能力之外,還可以基于主動學(xué)習(xí)的方法來增加更多的人工標(biāo)注數(shù)據(jù),以及采用無監(jiān)督和半監(jiān)督的方法來利用未標(biāo)注數(shù)據(jù),或者采用多任務(wù)學(xué)習(xí)的方法來使用其他任務(wù)甚至其他語言的信息,還可以使用遷移學(xué)習(xí)的方法來利用其他的模型。

以機(jī)器翻譯為例,對于稀缺資源的小語種翻譯任務(wù),在沒有常規(guī)雙語訓(xùn)練數(shù)據(jù)的情況下,首先通過一個小規(guī)模的雙語詞典(例如僅包含 2000 左右的詞對),使用跨語言詞向量的方法將源語言和目標(biāo)語言詞映射到同一個隱含空間。在該隱含空間中, 意義相近的源語言和目標(biāo)語言詞具有相近的詞向量表示。基于該語義空間中詞向量的相似程度構(gòu)建詞到詞的翻譯概率表,并結(jié)合語言模型,便可以構(gòu)建基于詞的機(jī)器翻譯模型。使用基于詞的翻譯模型將源語言和目標(biāo)語言單語語料進(jìn)行翻譯,構(gòu)建出偽雙語數(shù)據(jù)。于是,數(shù)據(jù)稀缺的問題通過無監(jiān)督的學(xué)習(xí)方法產(chǎn)生偽標(biāo)注數(shù)據(jù),就轉(zhuǎn)化成了一個有監(jiān)督的學(xué)習(xí)問題。接下來,利用偽雙語數(shù)據(jù)訓(xùn)練源語言到目標(biāo)語言以及目標(biāo)語言到源語言的翻譯模型,隨后再使用聯(lián)合訓(xùn)練的方法結(jié)合源語言和目標(biāo)語言的單語數(shù)據(jù),可以進(jìn)一步提高兩個翻譯系統(tǒng)的質(zhì)量。

為了提高小語種語言的翻譯質(zhì)量,我們提出了利用通用語言之間大規(guī)模的雙語數(shù)據(jù),來聯(lián)合訓(xùn)練四個翻譯模型的期望最大化訓(xùn)練方法(Ren et al., 2018)。該方法將小語種(例如希伯來語)作為有著豐富語料的語種(例如中文)和(例如英語)之間的一個隱含狀態(tài),并使用通用的期望最大化訓(xùn)練方法來迭代地更新 X 到 Z、Z 到 X、Y 到 Z 和 Z 到 Y 之間的四個翻譯模型,直至收斂。

熱點(diǎn)五,多模態(tài)學(xué)習(xí)

視覺問答作為一種典型的多模態(tài)學(xué)習(xí)任務(wù),在近年來受到計算機(jī)視覺和自然語言處理兩個領(lǐng)域研究人員的重點(diǎn)關(guān)注。

嬰兒在掌握語言功能前,首先通過視覺、聽覺和觸覺等感官去認(rèn)識并了解外部世界。可見,語言并不是人類在幼年時期與外界進(jìn)行溝通的首要手段。因此,構(gòu)建通用人工智能也應(yīng)該充分地考慮自然語言和其他模態(tài)之間的互動,并從中進(jìn)行學(xué)習(xí),這就是多模態(tài)學(xué)習(xí)。

視覺問答作為一種典型的多模態(tài)學(xué)習(xí)任務(wù),在近年來受到計算機(jī)視覺和自然語言處理兩個領(lǐng)域研究人員的重點(diǎn)關(guān)注。給定一張圖片和用戶提出的一個自然語言問題,視覺問答系統(tǒng)需要在理解圖片和自然語言問題的基礎(chǔ)上,進(jìn)一步輸入該問題對應(yīng)的答案,這需要視覺問答方法在建模中能夠?qū)D像和語言之間的信息進(jìn)行充分地理解和交互。

我們在今年的 CVPR 和 KDD 大會上分別提出了基于問題生成的視覺問答方法(Li et al., 2018)以及基于場景圖生成的視覺問答方法(Lu et al., 2018),這兩種方法均在視覺問答任務(wù)上取得了非常好的結(jié)果,實(shí)現(xiàn)了 state-of-the-art 的效果。除視覺問答外,視頻問答是另一種最近廣受關(guān)注的多模態(tài)任務(wù)。該任務(wù)除了包括帶有時序的視頻信息外,還包括了音頻信息。目前,視頻問答作為一種新型的問答功能,已經(jīng)出現(xiàn)在搜索引擎的場景中。可以預(yù)見,該任務(wù)在接下來一定還會受到更多的關(guān)注。

未來展望:理想的 NLP 框架和發(fā)展前景

我們認(rèn)為,未來理想狀態(tài)下的 NLP 系統(tǒng)架構(gòu)可能是如下一個通用的自然語言處理框架:

首先,對給定自然語言輸入進(jìn)行基本處理,包括分詞、詞性標(biāo)注、依存分析、命名實(shí)體識別、意圖/關(guān)系分類等。

其次,使用編碼器對輸入進(jìn)行編碼將其轉(zhuǎn)化為對應(yīng)的語義表示。在這個過程中,一方面使用預(yù)訓(xùn)練好的詞嵌入和實(shí)體嵌入對輸入中的單詞和實(shí)體名稱進(jìn)行信息擴(kuò)充,另一方面,可使用預(yù)訓(xùn)練好的多個任務(wù)編碼器對輸入句子進(jìn)行編碼并通過遷移學(xué)習(xí)對不同編碼進(jìn)行融合。

接下來,基于編碼器輸出的語義表示,使用任務(wù)相關(guān)的解碼器生成對應(yīng)的輸出。還可引入多任務(wù)學(xué)習(xí)將其他相關(guān)任務(wù)作為輔助任務(wù)引入到對主任務(wù)的模型訓(xùn)練中來。如果需要多輪建模,則需要在數(shù)據(jù)庫中記錄當(dāng)前輪的輸出結(jié)果的重要信息,并應(yīng)用于在后續(xù)的理解和推理中。

顯然,為了實(shí)現(xiàn)這個理想的 NLP 框架需要做很多工作:

需要構(gòu)建大規(guī)模常識數(shù)據(jù)庫并且清晰通過有意義的評測推動相關(guān)研究;

研究更加有效的詞、短語、句子的編碼方式,以及構(gòu)建更加強(qiáng)大的預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型;

推進(jìn)無監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí),需要考慮利用少量人類知識加強(qiáng)學(xué)習(xí)能力以及構(gòu)建跨語言的 embedding 的新方法;

需要更加有效地體現(xiàn)多任務(wù)學(xué)習(xí)和遷移學(xué)習(xí)在 NLP 任務(wù)中的效能,提升強(qiáng)化學(xué)習(xí)在 NLP 任務(wù)的作用,比如在自動客服的多輪對話中的應(yīng)用;

有效的篇章級建模或者多輪會話建模和多輪語義分析;

要在系統(tǒng)設(shè)計中考慮用戶的因素,實(shí)現(xiàn)用戶建模和個性化的輸出;

構(gòu)建綜合利用推理系統(tǒng)、任務(wù)求解和對話系統(tǒng),基于領(lǐng)域知識和常識知識的新一代的專家系統(tǒng);

利用語義分析和知識系統(tǒng)提升 NLP 系統(tǒng)的可解釋能力。

未來十年,NLP 將會進(jìn)入爆發(fā)式的發(fā)展階段。從 NLP 基礎(chǔ)技術(shù)到核心技術(shù),再到 NLP+的應(yīng)用,都會取得巨大的進(jìn)步。比爾蓋茨曾經(jīng)說過人們總是高估在一年或者兩年中能夠做到的事情,而低估十年中能夠做到的事情。

我們不妨進(jìn)一步想象十年之后 NLP 的進(jìn)步會給人類生活帶來哪些改變?

十年后,機(jī)器翻譯系統(tǒng)可以對上下文建模,具備新詞處理能力。那時候的講座、開會都可以用語音進(jìn)行自動翻譯。除了機(jī)器翻譯普及,其他技術(shù)的進(jìn)步也令人耳目一新。家里的老人和小孩可以跟機(jī)器人聊天解悶。

機(jī)器個人助理能夠理解你的自然語言指令,完成點(diǎn)餐、送花、購物等下單任務(wù)。你已習(xí)慣于客服機(jī)器人來回答你的關(guān)于產(chǎn)品維修的問題。

你登臨泰山發(fā)思古之幽情,或每逢佳節(jié)倍思親,拿出手機(jī)說出感想或者上傳一幅照片,一首情景交融、圖文并茂的詩歌便躍然于手機(jī)屏幕上,并且可以選擇格律詩詞或者自由體的表示形式,亦可配上曲譜,發(fā)出大作引來點(diǎn)贊。

可能你每天看到的體育新聞、財經(jīng)新聞報道是機(jī)器人寫的。

你用手機(jī)跟機(jī)器人老師學(xué)英語,老師教你口語,糾正發(fā)音,跟你親切對話,幫你修改論文。

機(jī)器人定期自動分析浩如煙海的文獻(xiàn),給企業(yè)提供分析報表、輔助決策并做出預(yù)測。搜索引擎的智能程度大幅度提高。很多情況下,可以直接給出答案,并且可以自動生成細(xì)致的報告。

利用推薦系統(tǒng),你關(guān)心的新聞、書籍、課程、會議、論文、商品等可直接推送給你。

機(jī)器人幫助律師找出判據(jù),挖掘相似案例,尋找合同疏漏,撰寫法律報告。

……

未來,NLP 將跟其他人工智能技術(shù)一道深刻地改變?nèi)祟惖纳睢.?dāng)然前途光明、道路曲折是亙古不變的道理,為了實(shí)現(xiàn)這個美好的未來,我們需要大膽創(chuàng)新、嚴(yán)謹(jǐn)求實(shí)、扎實(shí)進(jìn)取。講求研究和應(yīng)用并舉,普及與提高同步。我們期待著與業(yè)界同仁一道努力,共同走進(jìn) NLP 下一個輝煌的十年。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

推薦閱讀更多精彩內(nèi)容