從CNN視角看自然語(yǔ)言處理上的應(yīng)用

姓名:米芃? 學(xué)號(hào):16040520018

【嵌牛鼻子】卷積神經(jīng)網(wǎng)絡(luò)? 自然語(yǔ)言? 池化層? 激活函數(shù)

【嵌牛導(dǎo)讀】卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network)最早是應(yīng)用在計(jì)算機(jī)視覺當(dāng)中,而如今CNN也早已應(yīng)用于自然語(yǔ)言處理。

本文主要包括了對(duì)如下幾塊內(nèi)容的講解,第一部分是對(duì)于常見的語(yǔ)言模型在進(jìn)行文本表示時(shí)遇到的問題以及引入卷積神經(jīng)網(wǎng)絡(luò)的意義,第二部分是對(duì)于卷積神經(jīng)網(wǎng)絡(luò)模塊的介紹,第三部分主要是介紹一些卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于自然語(yǔ)言處理中的論文,第四部分主要是對(duì)這一篇綜述進(jìn)行總結(jié)。

【嵌牛提問】CNN與自然語(yǔ)言處理有何關(guān)系,如何應(yīng)用。

【嵌牛正文】

引例

我們首先來看這么一個(gè)問題,假設(shè)我們需要對(duì)句子做情感上的分類。

i hate this movie.

i love this moive.

傳統(tǒng)的詞袋模型或者連續(xù)詞袋模型都可以通過構(gòu)建一個(gè)全連接的神經(jīng)網(wǎng)絡(luò)對(duì)句子進(jìn)行情感標(biāo)簽的分類,但是這樣存在一個(gè)問題,我們通過激活函數(shù)可以讓某些結(jié)點(diǎn)激活(例如一個(gè)句子里”not”,”hate”這樣的較強(qiáng)的特征詞),但是由于在這樣網(wǎng)絡(luò)構(gòu)建里,句子中詞語(yǔ)的順序被忽略,也許同樣兩個(gè)句子都出現(xiàn)了not和hate但是一個(gè)句子(I do not hate this movie)表示的是good的情感,另一個(gè)句子(I hate this movie and will not choose it)表示的是bad的情感。其實(shí)很重要的一點(diǎn)是在剛才上述模型中我們無法捕獲像not hate這樣由連續(xù)兩個(gè)詞所構(gòu)成的關(guān)鍵特征的詞的含義。

在語(yǔ)言模型里n-gram模型是可以用來解決,想法其實(shí)就是將連續(xù)的兩個(gè)詞作為一個(gè)整體納入到模型中,這樣確實(shí)能夠解決我們剛才提出的問題,加入bi-gram,tri-gram可以讓我們捕捉到例如“don’t love”,“not the best”。但是問題又來了,如果我們使用多元模型,實(shí)際訓(xùn)練時(shí)的參數(shù)是一個(gè)非常大的問題,因?yàn)榧僭O(shè)你有20000個(gè)詞,加入bi-gram實(shí)際上你就要有400000000個(gè)詞,這樣參數(shù)訓(xùn)練顯然是爆炸的。另外一點(diǎn),相似的詞語(yǔ)在這樣的模型中不能共享例如參數(shù)權(quán)重等,這樣就會(huì)導(dǎo)致相似詞無法獲得交互信息。

卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的認(rèn)識(shí)

利用卷積神經(jīng)網(wǎng)絡(luò)實(shí)際上是可以解決上述的兩個(gè)問題。在講卷積神經(jīng)網(wǎng)絡(luò)前,我們先來看兩個(gè)簡(jiǎn)單的例子。

圖片發(fā)自簡(jiǎn)書App

假設(shè)我去識(shí)別出左邊這個(gè)方框里的貓,實(shí)際上在一張圖片中貓所處的位置并不重要,它在左邊,在右邊,還是在底部,其實(shí)對(duì)于貓來說,它的特征是不變的,我需要在這一部分位置學(xué)習(xí)的特征也能用在另一部分位置上,所以對(duì)于這個(gè)圖像上的所有位置,我們都能使用同樣的學(xué)習(xí)特征。而在右邊的例子中,假設(shè)一句話中是談?wù)撠堖涞模堖溥@個(gè)詞的意義是否會(huì)隨它在第一句話還是第二句話而發(fā)生改變呢,大部分情況是不變的,所以我們當(dāng)我們使用一個(gè)文本網(wǎng)絡(luò)時(shí),網(wǎng)絡(luò)能夠?qū)W習(xí)到什么是貓咪并且可以重復(fù)使用,而不是每一次見到它就要重新學(xué)習(xí)。

接下來我們先來介紹卷積神經(jīng)網(wǎng)絡(luò)中各個(gè)重要的環(huán)節(jié)。

卷積

所以這里我們首先去理解卷積神經(jīng)網(wǎng)絡(luò)中卷積的運(yùn)算。這里我們以圖像作為輸入。比較容易理解卷積的方法是把卷積想象成作用于矩陣的一個(gè)滑動(dòng)窗口函數(shù)。如下面這張圖的表示。

圖片發(fā)自簡(jiǎn)書App

滑動(dòng)窗口又稱作卷積核、濾波器或是特征檢測(cè)器。圖中使用3x3的卷積核,將卷積核與矩陣對(duì)應(yīng)的部分逐元素相乘,然后求和。對(duì)于卷積的運(yùn)算可以看下面這幅圖的解釋。

圖片發(fā)自簡(jiǎn)書App

在不改變卷積核權(quán)重的情況下,就像拿著一只刷子一樣對(duì)整個(gè)圖水平垂直滑動(dòng)進(jìn)行卷積運(yùn)算,這樣輸出就是經(jīng)過卷積運(yùn)算后的輸出層。這里有一個(gè)對(duì)卷積操作的動(dòng)畫演示,可以加深對(duì)其的理解(CS231n Convolutional Neural Networks for Visual Recognition)

什么是卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)其實(shí)就是多層卷積運(yùn)算,然后對(duì)每層的卷積輸出用非線性激活函數(shù)做轉(zhuǎn)換(后面會(huì)講到)。卷積過程中每塊局部的輸入?yún)^(qū)域與輸出的一個(gè)神經(jīng)元相連接。對(duì)每一層應(yīng)用不同的卷積核,每一種卷積核其實(shí)可以理解為對(duì)圖片的一種特征進(jìn)行提取,然后將多種特征進(jìn)行匯總,以下面這幅圖為例,原始的input為一幅圖片,第一層卷積過后輸出層變?yōu)?@28*28,所以這里的卷積核實(shí)際上用了6個(gè),6個(gè)卷積核代表了對(duì)這一張?jiān)紙D片的六種不同角度的特征提取(例如提取圖片左上方的邊緣線條,右下方的邊緣線條等等)。feature map實(shí)際上的含義就是特征通道(或者理解為一個(gè)圖片的不同特征),也可以說就是輸出層的深度,這里就是6,然后后面每一次做卷積操作是都是要對(duì)所有的特征通道進(jìn)行卷積操作以便提取出更高級(jí)的特征。這里也涉及到池化層,在下一小節(jié)進(jìn)行講解。在訓(xùn)練階段,卷積神經(jīng)網(wǎng)絡(luò)會(huì)基于你想完成的任務(wù)自動(dòng)學(xué)習(xí)卷積核的權(quán)重值。

圖片發(fā)自簡(jiǎn)書App

例如,在上面這幅圖中,第一層CNN模型也許學(xué)會(huì)從原始像素點(diǎn)中檢測(cè)到一些邊緣線條,然后根據(jù)邊緣線條在第二層檢測(cè)出一些簡(jiǎn)單的形狀(例如橫線條,左彎曲線條,豎線條等),然后基于這些形狀檢測(cè)出更高級(jí)的特征,比如一個(gè)A字母的上半部分等。最后一層則是利用這些組合的高級(jí)特征進(jìn)行分類。

卷積神經(jīng)網(wǎng)絡(luò)中的卷積計(jì)算實(shí)際上體現(xiàn)了:位置不變性和組合性。位置不變性是因?yàn)榫矸e核是在全圖范圍內(nèi)平移,所以并不用關(guān)心貓究竟在圖片的什么位置。組合性是指每個(gè)卷積核對(duì)一小塊局部區(qū)域的低級(jí)特征組合形成更高級(jí)的特征表示。當(dāng)然這兩點(diǎn)對(duì)于句子的建模也是很多的幫助,我們會(huì)在后面的例子中提到。

卷積是如何應(yīng)用到自然語(yǔ)言處理中

在圖像中卷積核通常是對(duì)圖像的一小塊區(qū)域進(jìn)行計(jì)算,而在文本中,一句話所構(gòu)成的詞向量作為輸入。每一行代表一個(gè)詞的詞向量,所以在處理文本時(shí),卷積核通常覆蓋上下幾行的詞,所以此時(shí)卷積核的寬度與輸入的寬度相同,通過這樣的方式,我們就能夠捕捉到多個(gè)連續(xù)詞之間的特征,并且能夠在同一類特征計(jì)算時(shí)中共享權(quán)重。下面這張圖很好地詮釋了剛才的講解。

圖片發(fā)自簡(jiǎn)書App


圖片引用自《A Sensitivity Analysis of (and Practitioners’ Guide to) ConvolutionalNeural Networks for Sentence Classification》Ye Zhang, Byron Wallace

池化層

卷積神經(jīng)網(wǎng)絡(luò)的一個(gè)重要概念就是池化層,一般是在卷積層之后。池化層對(duì)輸入做降采樣。池化的過程實(shí)際上是對(duì)卷積層分區(qū)域求最大值或者對(duì)每個(gè)卷積層求最大值。例如,下圖就是2x2窗口的最大值池化(在自然語(yǔ)言處理中,我們通常對(duì)整個(gè)輸出做池化,每個(gè)卷積層只有一個(gè)輸出值)。

圖片來自于http://cs231n.github.io/convolutional-networks/#pool

為什么要進(jìn)行池化操作?

池化首先是可以輸出一個(gè)固定大小的矩陣,這對(duì)于自然語(yǔ)言處理當(dāng)中輸入句子的長(zhǎng)度不一有非常大的作用。例如,如果你用了200個(gè)卷積核,并對(duì)每個(gè)輸出使用最大池化,那么無論卷積核的尺寸是多大,也無論輸入數(shù)據(jù)的維度或者單詞個(gè)數(shù)如何變化,你都將得到一個(gè)200維的輸出。這讓你可以應(yīng)對(duì)不同長(zhǎng)度的句子和不同大小的卷積核,但總是得到一個(gè)相同維度的輸出結(jié)果,用作最后的分類。

另外池化層在降低數(shù)據(jù)維度的同時(shí)還能夠保留顯著的特征。每一種卷積核都是用來檢測(cè)一種特定的特征。在以句子分類中,每一種卷積核可以用來檢測(cè)某一種含義的詞組,如果這種類型的含義的詞語(yǔ)出現(xiàn)了,該卷積核的輸出值就會(huì)非常大,通過池化過程就能夠盡可能地將該信息保留下來。

關(guān)于池化層幾種池化方式會(huì)在下面的內(nèi)容里講解。

激活函數(shù)

有關(guān)激活函數(shù)很多細(xì)節(jié)的講述在最后的總結(jié)會(huì)提到。

卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在NLP的應(yīng)用

首先我們來介紹第一篇論文《Natural Language Processing (almost) from Scratch》,該論文主要是針對(duì)原來那種man-made 的輸入特征和人工特征,利用神經(jīng)網(wǎng)絡(luò)的方法自動(dòng)抽取出文本句子更高級(jí)的特征用來處理自然語(yǔ)言處理里的各項(xiàng)任務(wù),例如本文中輸入是一個(gè)句子序列,輸出是對(duì)句子中各個(gè)詞的詞性的預(yù)測(cè)。該文提出了兩種方法,一種是滑動(dòng)窗口的方法(window approach),另一種就是將整個(gè)句子作為輸入(sentence approach)的方法,兩種方法就分別對(duì)應(yīng)著局部和全局的特征。模型結(jié)構(gòu)如下圖所示:

window approach

sentence approach

window approach 是根據(jù)某一個(gè)單詞以及其附近固定長(zhǎng)度范圍內(nèi)的單詞對(duì)應(yīng)的詞向量來為單詞預(yù)測(cè)標(biāo)簽。需要注意的是,當(dāng)處理到一個(gè)句子的開始或者結(jié)尾的單詞的時(shí)候,其前后窗口或許不包含單詞,這時(shí)候我們需要填充技術(shù),為前面或者后面填充象征開始或者結(jié)束的符號(hào)。

實(shí)際上基于窗口的方法已經(jīng)可以解決很多常見的任務(wù),但是如果一個(gè)單詞如果非常依賴上下文的單詞,且當(dāng)時(shí)這個(gè)單詞并不在窗口中,這時(shí)就需要sentence approach,這里所使用的卷積操作與卷積神經(jīng)網(wǎng)絡(luò)中的卷積操作基本相同。這里需要對(duì)句子中的每一個(gè)單詞進(jìn)行一次卷積操作,這里池化過程選擇最大池化,這里認(rèn)為句子中大部分的詞語(yǔ)對(duì)該單詞的意義不會(huì)有影響。

剛才這篇論文實(shí)際上是在池化層中直接選擇了最大池化,接下來的這篇論文《A Convolutional Neural Network for Modelling Sentences》對(duì)句子級(jí)別特征的池化過程進(jìn)行了改進(jìn)并且提出了DCNN動(dòng)態(tài)卷積網(wǎng)絡(luò)(Dynamic Convolutional Neural Network),在介紹該論文前首先先來介紹一下常見的幾種池化方式。

Max-pooling最為常見,最大池化是取整個(gè)區(qū)域的最大值作為特征,在自然語(yǔ)言處理中常用于分類問題,希望觀察到的特征是強(qiáng)特征,以便可以區(qū)分出是哪一個(gè)類別。Average-pooling通常是用于主題模型,常常是一個(gè)句子不止一個(gè)主題標(biāo)簽,如果是使用Max-pooling的話信息過少,所以使用Average的話可以廣泛反映這個(gè)區(qū)域的特征。最后兩個(gè)K-max pooling是選取一個(gè)區(qū)域的前k個(gè)大的特征。Dynamic pooling是根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)動(dòng)態(tài)調(diào)整取特征的個(gè)數(shù)。最后兩個(gè)的組合選取,就是該篇論文的亮點(diǎn)。

該論文的亮點(diǎn)首先對(duì)句子語(yǔ)義建模,在底層通過組合鄰近的詞語(yǔ)信息,逐步向上傳遞,上層則又組合新的語(yǔ)義信息,從而使得句子中相離較遠(yuǎn)的詞語(yǔ)也有交互行為(或者某種語(yǔ)義聯(lián)系)。從直觀上來看,這個(gè)模型能夠通過詞語(yǔ)的組合,再通過池化層提取出句子中重要的語(yǔ)義信息。

另一個(gè)亮點(diǎn)就是在池化過程中,該模型采用動(dòng)態(tài)k-Max池化,這里池化的結(jié)果不是返回一個(gè)最大值,而是返回k組最大值,這些最大值是原輸入的一個(gè)子序列。池化中的參數(shù)k可以是一個(gè)動(dòng)態(tài)函數(shù),具體的值依賴于輸入或者網(wǎng)絡(luò)的其他參數(shù)。該模型的網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示:

圖片發(fā)自簡(jiǎn)書App

這里重點(diǎn)介紹k-max池化和動(dòng)態(tài)k-max池化。K-max的好處在于,既提取除了句子中不止一個(gè)重要信息,同時(shí)保留了它們的順序。同時(shí),這里取k的個(gè)數(shù)是動(dòng)態(tài)變化的,具體的動(dòng)態(tài)函數(shù)如下。

這里需要注意的是s代表的是句子長(zhǎng)度,L代表總的卷積層的個(gè)數(shù),l代表的是當(dāng)前是在幾個(gè)卷積層,所以可以看出這里的k是隨著句子的長(zhǎng)度和網(wǎng)絡(luò)深度而改變,我們的直觀的感受也能看出初始的句子層提取較多的特征,而到后面提取的特征將會(huì)逐漸變少,同時(shí)由于? 代表最頂層的卷積層需要提取的個(gè)數(shù)。

這里的網(wǎng)絡(luò)結(jié)構(gòu)大多與通常的卷積網(wǎng)絡(luò)層,但需要注意的是這里有一個(gè)Folding層(折疊操作層)。這里考慮相鄰的兩行之間的某種聯(lián)系,將兩行的詞向量相加。

該模型亮點(diǎn)很多,總結(jié)如下,首先它保留了句子中詞序和詞語(yǔ)之間的相對(duì)位置,同時(shí)考慮了句子中相隔較遠(yuǎn)的詞語(yǔ)之間的語(yǔ)義信息,通過動(dòng)態(tài)k-max pooling較好地保留句子中多個(gè)重要信息且根據(jù)句子長(zhǎng)度動(dòng)態(tài)變化特征抽取的個(gè)數(shù)。

剛才這篇論文是對(duì)池化過程進(jìn)行改進(jìn),接下來的兩篇論文是對(duì)卷積層進(jìn)行了改進(jìn)。第三篇論文是《Neural Machine Translation in Linear Time》,該論文提出了擴(kuò)張卷積神經(jīng)網(wǎng)絡(luò)(Dilated Convolution)應(yīng)用于機(jī)器翻譯領(lǐng)域。Dilated convolution實(shí)際上要解決的問題是池化層的池化會(huì)損失很多信息(無論該信息是有用還是無用)。Dilated convolution的主要貢獻(xiàn)就是,如何在去掉池化操作的同時(shí),而不降低網(wǎng)絡(luò)的感受野。下圖理解起來更加容易,卷積的輸入像素的間距由1-2-4-8,雖然沒有池化層,但是隨著層數(shù)越深覆蓋的原始輸入信息依舊在增加。也就是我們通常卷積核與輸入的一個(gè)區(qū)域的維度大小保持一致,但是去掉池化層后,我們隨著深度增加,卷積核的所能覆蓋的輸入?yún)^(qū)域擴(kuò)展一倍。

在該模型中,句子建模時(shí)輸入是以句子的字符級(jí)別開始的,之后隨著卷積核所能覆蓋的范圍擴(kuò)展,不斷地去交互信息,同時(shí)還能夠保證原始的輸入信息不被丟失。

之前的論文中主要是對(duì)卷積層和池化層從本身結(jié)構(gòu)上進(jìn)行改造,下面的這篇論文主要考慮到了本身句子已有依存句法樹信息,將其融入到句子的建模中來。論文《Dependency-based Convolutional Neural Networks for Sentence Embedding》便是提出這一想法,模型的想法是,不僅僅是利用句子中相鄰的詞信息作為特征信息,一個(gè)依存句法樹的實(shí)際上將句子的語(yǔ)義信息關(guān)系真正地提取出來,由于整個(gè)卷積的過程,句子的語(yǔ)序關(guān)系仍然會(huì)丟失,通過將依存句法樹中父子節(jié)點(diǎn)的語(yǔ)序信息和兄弟語(yǔ)序信息一起作為輸入,可以更加有效地抽取句子的特征。

最后要介紹的一篇論文是有關(guān)于句子匹配(Sentence Matching)的問題,基礎(chǔ)問題仍然是句子建模。首先,文中提出了一種基于CNN的句子建模網(wǎng)絡(luò),卷積的作用是從句子中提取出局部的語(yǔ)義組合信息,而多個(gè)Feature Map則是從多種角度進(jìn)行提取,也就是保證提取的語(yǔ)義組合的多樣性。分別單獨(dú)地對(duì)兩個(gè)句子進(jìn)行建模(使用上文中的句子模型),從而得到兩個(gè)相同且固定長(zhǎng)度的向量,然后,將這兩個(gè)向量作為一個(gè)多層感知機(jī)(MLP)的輸入,最后計(jì)算匹配的分?jǐn)?shù)。

這個(gè)模型比較簡(jiǎn)單,但是有一個(gè)較大的缺點(diǎn),兩個(gè)句子在建模過程中是完全獨(dú)立的,沒有任何交互行為,一直到最后生成抽象的向量表示后才有交互行為,這樣做使得句子在抽象建模的過程中會(huì)喪失很多語(yǔ)義細(xì)節(jié),因此,推出了第二種模型結(jié)構(gòu)。

這種結(jié)構(gòu)提前了兩個(gè)句子間的交互行為,第一層中,首先取一個(gè)固定的卷積窗口

,然后遍歷中所有組合的二維矩陣進(jìn)行卷積,每一個(gè)二維矩陣輸出一個(gè)值,構(gòu)成Layer-2,然后進(jìn)行2×2的Max-pooling,后續(xù)的卷積層均是傳統(tǒng)的二維卷積操作。

總結(jié)/Q&A

本篇綜述中具體介紹了卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)以及應(yīng)用于自然語(yǔ)言處理中的場(chǎng)景,最后再做一個(gè)簡(jiǎn)單地歸納總結(jié)。

還有一些有關(guān)卷積神經(jīng)網(wǎng)絡(luò)細(xì)節(jié)上的問題與答案,與大家分享。

卷積層和池化層有什么區(qū)別?

首先可以從結(jié)構(gòu)上可以看出,卷積之后輸出層的維度減小,深度變深。但池化層深度不變。同時(shí)池化可以把很多數(shù)據(jù)用最大值或者平均值代替。目的是降低數(shù)據(jù)量。降低訓(xùn)練的參數(shù)。對(duì)于輸入層,當(dāng)其中像素在鄰域發(fā)生微小位移時(shí),池化層的輸出是不變的,從而能提升魯棒性。而卷積則是把數(shù)據(jù)通過一個(gè)卷積核變化成特征,便于后面的分離。

采用寬卷積的好處有什么?

通過將輸入邊角的值納入到滑窗中心進(jìn)行計(jì)算,以便損失更少的信息。

卷積輸出的深度與哪個(gè)部件的個(gè)數(shù)相同?

輸出深度(通道)與卷積核(過濾器)的個(gè)數(shù)相等。

激活函數(shù)通常放在卷積神經(jīng)網(wǎng)絡(luò)的那個(gè)操作之后?

通常放在卷積層之后。

為什么激活函數(shù)通常都是采用非線性的函數(shù)?

如果網(wǎng)絡(luò)中都采用線性函數(shù)的組合,那么線性的組合還是線性,那么使用多次線性組合就等同于使用了一次線性函數(shù)。因此采用非線性函數(shù)可以來逼近任意函數(shù)。

非線性激活函數(shù)中sigmod函數(shù)存在哪些不足?

Sigmod函數(shù)存在飽和狀態(tài),尤其是值過大時(shí),當(dāng)進(jìn)入飽和狀態(tài)時(shí),進(jìn)行梯度下降計(jì)算時(shí),很容易出現(xiàn)梯度消失的情況,求導(dǎo)的精確值不能保證。

ReLU和SoftPlus激活函數(shù)有哪些優(yōu)勢(shì)?

與sigmod相比,不存在指數(shù)計(jì)算,求導(dǎo)計(jì)算量變小,同時(shí)緩解了過擬合的情況,一部分輸出為0,減少了參數(shù)的相互依存。




摘自微信公眾號(hào)“人工智能頭條”――從CNN視角看自然語(yǔ)言上的應(yīng)用

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容