2015蒙特利爾深度學習暑期學校之自然語言處理篇

2015蒙特利爾深度學習暑期學校之自然語言處理篇

2015-08-28郭江哈工大SCIR

8月3日至8月12日在蒙特利爾舉辦的深度學習署期學校中,來自不同領域的深度學習頂尖學者 (Yoshua? Bengio, Leon Bottou, Chris Manning等)分別作了精彩的報告。報告內容的覆蓋面非常廣,從基本神經網絡介紹、深度網絡的訓練技巧、理論分析到工具使用、以及在不同問題中的應用等。所有報告的slides均可從本次暑期學校主頁(https://sites.google.com/site/deeplearningsummerschool/home)下載。

本文內容主要總結自Marek Rei(劍橋大學助理研究員)對于本次署期學校所撰寫的博文:26 Things I Learned in The Deep Learning Summer School (http://www.marekrei.com/blog/26-things-i-learned-in-the-deep-learning-summer-school/) 中與自然語言處理相關的內容(12項)。希望能為像筆者一樣無緣現場聆聽的同學們提供一個簡要的概述。

1. The need for distributed representations

分布表示或許是表示學習在自然語言處理中最重要的概念。簡單來理解就是將我們需要記憶、識別的概念或者其他目標表示成由多個激活值所組成的向量,該向量中的每一維可表達某種隱含的意義。下圖是Yoshua Bengio自稱報告中最重要的一頁:

假設我們有一個分類器需要對人進行以下三個屬性的分類:男/女,戴眼鏡/不戴眼鏡,高/矮。如果使用傳統的類別表示,由于需判定的類別數目是8類(2*2*2),為了訓練該分類器,則需要屬于所有這8個類的足夠訓練數據。如果采用分布表示,將每個屬性用獨立的一維信息來表達,即使訓練數據中沒有出現過某個類(比如:男、高、戴眼鏡),分類器也能夠對該類進行識別。

當然,分布表示的意義不僅于此,其對記憶對象(如:詞)相似性表達的重要意義,在自然語言處理中顯得更為重要。

2. Local minima are not a problem in high dimensions

Yoshua Bengio研究組通過實驗發現,在訓練高維(參數)神經網絡時,幾乎不會遇到局部極小點(這與我們以往的直覺相背),但會存在鞍點,而這些鞍點只在某些維度上是局部極小的。鞍點會顯著減緩神經網絡的訓練速度,直到在訓練過程中找到正確的逃離方向。從下圖可以明顯看出這種現象,每當到達一個鞍點,都會“震蕩”多次最終逃逸。

Bengio提供了一個淺顯易懂的解釋:我們假設在某個維度上,一個點是局部極小點的概率為p。那么這個點在1000維的空間下是局部極小點的概率則為p^1000,是一個典型的小概率事件。而該點在少數幾個維度上局部極小的概率則相對較高。在參數優化過程中,當到達這些點的時候訓練速度會明顯變慢,直到找到正確的方向。

另外,概率p會隨著損失函數逐漸接近全局最優點而不斷增大。這意味著,當網絡收斂到一個真正的局部極小點時,通常可以認為該點已經離全局最優足夠接近了。

3. Derivatives derivatives derivatives

Leon Bottou總結了不同激活函數以及損失函數以及它們所對應的梯度求解公式。

4. Weight initialisation strategy

目前大家比較推薦的網絡權值初始化策略是在某區間[-b, b]之內隨機采樣。其中,b的大小取決于連接它的兩層神經網絡的神經元數目:

5. Neural net training tricks

在Hugo Larochelle的報告中提到的:

對于實值輸入進行正則化

在訓練過程中不斷減小學習率(針對SGD而言)

使用mini-batch,梯度更加穩定

使用momentum

6. Gradient checking

當自己實現的反向傳播不work的時候,99%的可能性在于梯度計算存在錯誤。這時候需要利用梯度檢查技術(gradient checking)。思想很簡單,驗證通過數值方法計算出來的梯度(微分原始定義)以及程序中的梯度求解結果是否足夠接近,即:

7. Syntax or no syntax? (aka, “is syntax a thing?”)

在基于詞匯分布表示的語義組合(semantic composition)研究中,構建于句法結構之上的遞歸網絡模型一直被認為是一種較為理想的方式,比如Richard Socher等提出的遞歸神經張量網絡 (Socher et al., EMNLP 2013)模型 (RNTN)。有趣的是,2014年Quoc Le與Tomas Mikolov (NIPS)提出的paragraph vector在不考慮任何句法結構信息的情況下,超越了RNTN在情感分析任務上的效果。這個結果不由令人質疑句法結構(以及其他傳統自然語言處理所帶來的語法信息)在語義組合中的必要性。

幸運的是,我們不必因此而對傳統自然語言處理技術失去信心。Irsoy and Cardie (NIPS, 2014)以及Tai et al. (ACL, 2015)通過結合深度神經網絡與句法結構,再次超越了paragraph vector,重新證明了句法信息的有效性。

相關模型在斯坦福情感分析數據集上的結果如下表:

8. The state of dependency parsing

在Chen and Manning (EMNLP, 2014)提出基于神經網絡的依存句法分析之后,今年的ACL涌現出不少改進的工作。其中Google的模型將PTB上的結果推到了94.3(UAS)/92.4(LAS)。相關模型的性能比較如下:

當然,表中所列的parser并不完整,比如RGBParser, Zpar等均未列其中。

9. Multimodal linguistic regularities

想必大家對word embedding中所蘊含的語義關系類比性質(如“king – man + woman = queen”)已經非常熟悉。那么在圖像中是否也存在類似的現象呢?Kiros et al., (TACL 2015) 討論了這個有趣的發現,見下圖:

10. Everything is language modelling

Phil Blunsom在他的報告中提到所有的自然語言處理任務均可表達為語言模型。我們所要做的就是將輸入(序列)與輸入(序列)拼在一起,然后預測合并之后序列的概率。比如

機器翻譯:P(Les chiens aiment les os || Dogs love bones)

問答:P(What do dogs love? || bones)

對話:P(How are you? || Fine thanks. And you?)

對于問答和對話任務而言,還需要以一定的基本知識作為條件。這種思路不僅可以用于兩個詞序列的情況,在輸出是標簽(類別)或者其他結構化信息(如句法樹)時也非常自然。

當然這個觀點在傳統自然語言處理研究者眼中是有待推敲或質疑的,但是在訓練數據非常充分的任務中,它確實能夠取得較好的實驗結果。

11. SMT had a rough start

這是一個有趣的小八卦。1988年Frederick Jelinek將第一篇統計機器翻譯的文章投往COLING時,收到的(匿名)審稿意見如下:

“The validity of a statistical (information theoretic) approach to MT has indeed been recognized, as the authors mention, by Weaver as early as 1949. And was universally recognized as mistaken by 1950 (cf. Hutchins, MT – Past, Present, Future, Ellis Horwood, 1986, p. 30ff and references therein). The crude force ofCOMPUTERS is not science. The paper is simply beyond the scope of COLING.”

12. The state of Neural Machine Translation

下圖是一個非常簡單的神經網絡翻譯模型示意。encoder將源語言句子中的每個詞向量相加得到句子表示,decoder是一個條件語言模型,在源語言句子表示以及當前已經生成詞的基礎之上預測下一個詞的概率分布。這種框架之下很自然衍生出更為復雜也更具表達能力的模型,比如encoder/decoder均可采用(多層)LSTM。

然而,目前的神經網絡翻譯模型在性能上并沒有超越最好的傳統機器翻譯模型。如Sutskever et al., (NIPS, 2014)報告的性能:

主編:劉挺

編輯部主任:郭江

執行編輯:李家琦

編輯:徐俊,李忠陽,俞霖霖

本期編輯:李忠陽

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容

  • 今天快下班的時候,收到老媽發來的微信:過來吃飯不.我煮了羊肉. 內容簡單明了,而且最主要的是沒有直接打電話。當然,...
    lzw0929閱讀 192評論 0 0
  • 人的一生,,大都已經習慣了錯誤,習慣了在錯誤中一次次地反省,但是卻始終做出他人認為正確的決定,來將你一筆抹去,將你...
    思考Ajax閱讀 149評論 0 0
  • 生活之于我在于無數個別人怎么看,和深入骨髓的別人會怎么想。久了便不知道自己的存在,自己真正喜歡什么,討厭什么,在追...
    藥一味閱讀 229評論 2 1