亚洲精品久久久久一区二区,欧美成人h版护士日记在线观看,囯产精品久久久久久久久久精品

姓名：米芃? 學(xué)號(hào)：16040520018

【嵌牛鼻子】卷積神經(jīng)網(wǎng)絡(luò)? 自然語(yǔ)言? 池化層? 激活函數(shù)

【嵌牛導(dǎo)讀】卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network）最早是應(yīng)用在計(jì)算機(jī)視覺當(dāng)中，而如今CNN也早已應(yīng)用于自然語(yǔ)言處理。

本文主要包括了對(duì)如下幾塊內(nèi)容的講解，第一部分是對(duì)于常見的語(yǔ)言模型在進(jìn)行文本表示時(shí)遇到的問題以及引入卷積神經(jīng)網(wǎng)絡(luò)的意義，第二部分是對(duì)于卷積神經(jīng)網(wǎng)絡(luò)模塊的介紹，第三部分主要是介紹一些卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于自然語(yǔ)言處理中的論文，第四部分主要是對(duì)這一篇綜述進(jìn)行總結(jié)。

【嵌牛提問】CNN與自然語(yǔ)言處理有何關(guān)系，如何應(yīng)用。

【嵌牛正文】

引例

我們首先來看這么一個(gè)問題，假設(shè)我們需要對(duì)句子做情感上的分類。

i hate this movie.

i love this moive.

傳統(tǒng)的詞袋模型或者連續(xù)詞袋模型都可以通過構(gòu)建一個(gè)全連接的神經(jīng)網(wǎng)絡(luò)對(duì)句子進(jìn)行情感標(biāo)簽的分類，但是這樣存在一個(gè)問題，我們通過激活函數(shù)可以讓某些結(jié)點(diǎn)激活（例如一個(gè)句子里”not”,”hate”這樣的較強(qiáng)的特征詞），但是由于在這樣網(wǎng)絡(luò)構(gòu)建里，句子中詞語(yǔ)的順序被忽略，也許同樣兩個(gè)句子都出現(xiàn)了not和hate但是一個(gè)句子（I do not hate this movie）表示的是good的情感，另一個(gè)句子（I hate this movie and will not choose it）表示的是bad的情感。其實(shí)很重要的一點(diǎn)是在剛才上述模型中我們無法捕獲像not hate這樣由連續(xù)兩個(gè)詞所構(gòu)成的關(guān)鍵特征的詞的含義。

在語(yǔ)言模型里n-gram模型是可以用來解決，想法其實(shí)就是將連續(xù)的兩個(gè)詞作為一個(gè)整體納入到模型中，這樣確實(shí)能夠解決我們剛才提出的問題，加入bi-gram，tri-gram可以讓我們捕捉到例如“don’t love”，“not the best”。但是問題又來了，如果我們使用多元模型，實(shí)際訓(xùn)練時(shí)的參數(shù)是一個(gè)非常大的問題，因?yàn)榧僭O(shè)你有20000個(gè)詞，加入bi-gram實(shí)際上你就要有400000000個(gè)詞，這樣參數(shù)訓(xùn)練顯然是爆炸的。另外一點(diǎn)，相似的詞語(yǔ)在這樣的模型中不能共享例如參數(shù)權(quán)重等，這樣就會(huì)導(dǎo)致相似詞無法獲得交互信息。

卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的認(rèn)識(shí)

利用卷積神經(jīng)網(wǎng)絡(luò)實(shí)際上是可以解決上述的兩個(gè)問題。在講卷積神經(jīng)網(wǎng)絡(luò)前，我們先來看兩個(gè)簡(jiǎn)單的例子。

圖片發(fā)自簡(jiǎn)書App

假設(shè)我去識(shí)別出左邊這個(gè)方框里的貓，實(shí)際上在一張圖片中貓所處的位置并不重要，它在左邊，在右邊，還是在底部，其實(shí)對(duì)于貓來說，它的特征是不變的，我需要在這一部分位置學(xué)習(xí)的特征也能用在另一部分位置上，所以對(duì)于這個(gè)圖像上的所有位置，我們都能使用同樣的學(xué)習(xí)特征。而在右邊的例子中，假設(shè)一句話中是談?wù)撠堖涞模堖溥@個(gè)詞的意義是否會(huì)隨它在第一句話還是第二句話而發(fā)生改變呢，大部分情況是不變的，所以我們當(dāng)我們使用一個(gè)文本網(wǎng)絡(luò)時(shí)，網(wǎng)絡(luò)能夠?qū)W習(xí)到什么是貓咪并且可以重復(fù)使用，而不是每一次見到它就要重新學(xué)習(xí)。

接下來我們先來介紹卷積神經(jīng)網(wǎng)絡(luò)中各個(gè)重要的環(huán)節(jié)。

卷積

所以這里我們首先去理解卷積神經(jīng)網(wǎng)絡(luò)中卷積的運(yùn)算。這里我們以圖像作為輸入。比較容易理解卷積的方法是把卷積想象成作用于矩陣的一個(gè)滑動(dòng)窗口函數(shù)。如下面這張圖的表示。

圖片發(fā)自簡(jiǎn)書App

滑動(dòng)窗口又稱作卷積核、濾波器或是特征檢測(cè)器。圖中使用3x3的卷積核，將卷積核與矩陣對(duì)應(yīng)的部分逐元素相乘，然后求和。對(duì)于卷積的運(yùn)算可以看下面這幅圖的解釋。

圖片發(fā)自簡(jiǎn)書App

在不改變卷積核權(quán)重的情況下，就像拿著一只刷子一樣對(duì)整個(gè)圖水平垂直滑動(dòng)進(jìn)行卷積運(yùn)算，這樣輸出就是經(jīng)過卷積運(yùn)算后的輸出層。這里有一個(gè)對(duì)卷積操作的動(dòng)畫演示，可以加深對(duì)其的理解（CS231n Convolutional Neural Networks for Visual Recognition）

什么是卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)其實(shí)就是多層卷積運(yùn)算，然后對(duì)每層的卷積輸出用非線性激活函數(shù)做轉(zhuǎn)換（后面會(huì)講到）。卷積過程中每塊局部的輸入?yún)^(qū)域與輸出的一個(gè)神經(jīng)元相連接。對(duì)每一層應(yīng)用不同的卷積核，每一種卷積核其實(shí)可以理解為對(duì)圖片的一種特征進(jìn)行提取，然后將多種特征進(jìn)行匯總，以下面這幅圖為例，原始的input為一幅圖片，第一層卷積過后輸出層變?yōu)?@28*28，所以這里的卷積核實(shí)際上用了6個(gè)，6個(gè)卷積核代表了對(duì)這一張?jiān)紙D片的六種不同角度的特征提取（例如提取圖片左上方的邊緣線條，右下方的邊緣線條等等）。feature map實(shí)際上的含義就是特征通道（或者理解為一個(gè)圖片的不同特征），也可以說就是輸出層的深度，這里就是6，然后后面每一次做卷積操作是都是要對(duì)所有的特征通道進(jìn)行卷積操作以便提取出更高級(jí)的特征。這里也涉及到池化層，在下一小節(jié)進(jìn)行講解。在訓(xùn)練階段，卷積神經(jīng)網(wǎng)絡(luò)會(huì)基于你想完成的任務(wù)自動(dòng)學(xué)習(xí)卷積核的權(quán)重值。

圖片發(fā)自簡(jiǎn)書App

例如，在上面這幅圖中，第一層CNN模型也許學(xué)會(huì)從原始像素點(diǎn)中檢測(cè)到一些邊緣線條，然后根據(jù)邊緣線條在第二層檢測(cè)出一些簡(jiǎn)單的形狀（例如橫線條，左彎曲線條，豎線條等），然后基于這些形狀檢測(cè)出更高級(jí)的特征，比如一個(gè)A字母的上半部分等。最后一層則是利用這些組合的高級(jí)特征進(jìn)行分類。

卷積神經(jīng)網(wǎng)絡(luò)中的卷積計(jì)算實(shí)際上體現(xiàn)了：位置不變性和組合性。位置不變性是因?yàn)榫矸e核是在全圖范圍內(nèi)平移，所以并不用關(guān)心貓究竟在圖片的什么位置。組合性是指每個(gè)卷積核對(duì)一小塊局部區(qū)域的低級(jí)特征組合形成更高級(jí)的特征表示。當(dāng)然這兩點(diǎn)對(duì)于句子的建模也是很多的幫助，我們會(huì)在后面的例子中提到。

卷積是如何應(yīng)用到自然語(yǔ)言處理中

在圖像中卷積核通常是對(duì)圖像的一小塊區(qū)域進(jìn)行計(jì)算，而在文本中，一句話所構(gòu)成的詞向量作為輸入。每一行代表一個(gè)詞的詞向量，所以在處理文本時(shí)，卷積核通常覆蓋上下幾行的詞，所以此時(shí)卷積核的寬度與輸入的寬度相同，通過這樣的方式，我們就能夠捕捉到多個(gè)連續(xù)詞之間的特征，并且能夠在同一類特征計(jì)算時(shí)中共享權(quán)重。下面這張圖很好地詮釋了剛才的講解。

圖片發(fā)自簡(jiǎn)書App

圖片引用自《A Sensitivity Analysis of (and Practitioners’ Guide to) ConvolutionalNeural Networks for Sentence Classification》Ye Zhang, Byron Wallace

池化層

卷積神經(jīng)網(wǎng)絡(luò)的一個(gè)重要概念就是池化層，一般是在卷積層之后。池化層對(duì)輸入做降采樣。池化的過程實(shí)際上是對(duì)卷積層分區(qū)域求最大值或者對(duì)每個(gè)卷積層求最大值。例如，下圖就是2x2窗口的最大值池化（在自然語(yǔ)言處理中，我們通常對(duì)整個(gè)輸出做池化，每個(gè)卷積層只有一個(gè)輸出值）。

圖片來自于http://cs231n.github.io/convolutional-networks/#pool

為什么要進(jìn)行池化操作？

池化首先是可以輸出一個(gè)固定大小的矩陣，這對(duì)于自然語(yǔ)言處理當(dāng)中輸入句子的長(zhǎng)度不一有非常大的作用。例如，如果你用了200個(gè)卷積核，并對(duì)每個(gè)輸出使用最大池化，那么無論卷積核的尺寸是多大，也無論輸入數(shù)據(jù)的維度或者單詞個(gè)數(shù)如何變化，你都將得到一個(gè)200維的輸出。這讓你可以應(yīng)對(duì)不同長(zhǎng)度的句子和不同大小的卷積核，但總是得到一個(gè)相同維度的輸出結(jié)果，用作最后的分類。

另外池化層在降低數(shù)據(jù)維度的同時(shí)還能夠保留顯著的特征。每一種卷積核都是用來檢測(cè)一種特定的特征。在以句子分類中，每一種卷積核可以用來檢測(cè)某一種含義的詞組，如果這種類型的含義的詞語(yǔ)出現(xiàn)了，該卷積核的輸出值就會(huì)非常大，通過池化過程就能夠盡可能地將該信息保留下來。

關(guān)于池化層幾種池化方式會(huì)在下面的內(nèi)容里講解。

激活函數(shù)

有關(guān)激活函數(shù)很多細(xì)節(jié)的講述在最后的總結(jié)會(huì)提到。

卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在NLP的應(yīng)用

首先我們來介紹第一篇論文《Natural Language Processing (almost) from Scratch》，該論文主要是針對(duì)原來那種man-made 的輸入特征和人工特征，利用神經(jīng)網(wǎng)絡(luò)的方法自動(dòng)抽取出文本句子更高級(jí)的特征用來處理自然語(yǔ)言處理里的各項(xiàng)任務(wù)，例如本文中輸入是一個(gè)句子序列，輸出是對(duì)句子中各個(gè)詞的詞性的預(yù)測(cè)。該文提出了兩種方法，一種是滑動(dòng)窗口的方法（window approach），另一種就是將整個(gè)句子作為輸入（sentence approach）的方法，兩種方法就分別對(duì)應(yīng)著局部和全局的特征。模型結(jié)構(gòu)如下圖所示：

window approach

sentence approach

window approach 是根據(jù)某一個(gè)單詞以及其附近固定長(zhǎng)度范圍內(nèi)的單詞對(duì)應(yīng)的詞向量來為單詞預(yù)測(cè)標(biāo)簽。需要注意的是，當(dāng)處理到一個(gè)句子的開始或者結(jié)尾的單詞的時(shí)候，其前后窗口或許不包含單詞，這時(shí)候我們需要填充技術(shù)，為前面或者后面填充象征開始或者結(jié)束的符號(hào)。

實(shí)際上基于窗口的方法已經(jīng)可以解決很多常見的任務(wù)，但是如果一個(gè)單詞如果非常依賴上下文的單詞，且當(dāng)時(shí)這個(gè)單詞并不在窗口中，這時(shí)就需要sentence approach，這里所使用的卷積操作與卷積神經(jīng)網(wǎng)絡(luò)中的卷積操作基本相同。這里需要對(duì)句子中的每一個(gè)單詞進(jìn)行一次卷積操作，這里池化過程選擇最大池化，這里認(rèn)為句子中大部分的詞語(yǔ)對(duì)該單詞的意義不會(huì)有影響。

剛才這篇論文實(shí)際上是在池化層中直接選擇了最大池化，接下來的這篇論文《A Convolutional Neural Network for Modelling Sentences》對(duì)句子級(jí)別特征的池化過程進(jìn)行了改進(jìn)并且提出了DCNN動(dòng)態(tài)卷積網(wǎng)絡(luò)（Dynamic Convolutional Neural Network），在介紹該論文前首先先來介紹一下常見的幾種池化方式。

Max-pooling最為常見，最大池化是取整個(gè)區(qū)域的最大值作為特征，在自然語(yǔ)言處理中常用于分類問題，希望觀察到的特征是強(qiáng)特征，以便可以區(qū)分出是哪一個(gè)類別。Average-pooling通常是用于主題模型，常常是一個(gè)句子不止一個(gè)主題標(biāo)簽，如果是使用Max-pooling的話信息過少，所以使用Average的話可以廣泛反映這個(gè)區(qū)域的特征。最后兩個(gè)K-max pooling是選取一個(gè)區(qū)域的前k個(gè)大的特征。Dynamic pooling是根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)動(dòng)態(tài)調(diào)整取特征的個(gè)數(shù)。最后兩個(gè)的組合選取，就是該篇論文的亮點(diǎn)。

該論文的亮點(diǎn)首先對(duì)句子語(yǔ)義建模，在底層通過組合鄰近的詞語(yǔ)信息，逐步向上傳遞，上層則又組合新的語(yǔ)義信息，從而使得句子中相離較遠(yuǎn)的詞語(yǔ)也有交互行為（或者某種語(yǔ)義聯(lián)系）。從直觀上來看，這個(gè)模型能夠通過詞語(yǔ)的組合，再通過池化層提取出句子中重要的語(yǔ)義信息。

另一個(gè)亮點(diǎn)就是在池化過程中，該模型采用動(dòng)態(tài)k-Max池化，這里池化的結(jié)果不是返回一個(gè)最大值，而是返回k組最大值，這些最大值是原輸入的一個(gè)子序列。池化中的參數(shù)k可以是一個(gè)動(dòng)態(tài)函數(shù)，具體的值依賴于輸入或者網(wǎng)絡(luò)的其他參數(shù)。該模型的網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示：

圖片發(fā)自簡(jiǎn)書App

這里重點(diǎn)介紹k-max池化和動(dòng)態(tài)k-max池化。K-max的好處在于，既提取除了句子中不止一個(gè)重要信息，同時(shí)保留了它們的順序。同時(shí)，這里取k的個(gè)數(shù)是動(dòng)態(tài)變化的，具體的動(dòng)態(tài)函數(shù)如下。

這里需要注意的是s代表的是句子長(zhǎng)度，L代表總的卷積層的個(gè)數(shù)，l代表的是當(dāng)前是在幾個(gè)卷積層，所以可以看出這里的k是隨著句子的長(zhǎng)度和網(wǎng)絡(luò)深度而改變，我們的直觀的感受也能看出初始的句子層提取較多的特征，而到后面提取的特征將會(huì)逐漸變少，同時(shí)由于? 代表最頂層的卷積層需要提取的個(gè)數(shù)。

這里的網(wǎng)絡(luò)結(jié)構(gòu)大多與通常的卷積網(wǎng)絡(luò)層，但需要注意的是這里有一個(gè)Folding層（折疊操作層）。這里考慮相鄰的兩行之間的某種聯(lián)系，將兩行的詞向量相加。

該模型亮點(diǎn)很多，總結(jié)如下，首先它保留了句子中詞序和詞語(yǔ)之間的相對(duì)位置，同時(shí)考慮了句子中相隔較遠(yuǎn)的詞語(yǔ)之間的語(yǔ)義信息，通過動(dòng)態(tài)k-max pooling較好地保留句子中多個(gè)重要信息且根據(jù)句子長(zhǎng)度動(dòng)態(tài)變化特征抽取的個(gè)數(shù)。

剛才這篇論文是對(duì)池化過程進(jìn)行改進(jìn)，接下來的兩篇論文是對(duì)卷積層進(jìn)行了改進(jìn)。第三篇論文是《Neural Machine Translation in Linear Time》，該論文提出了擴(kuò)張卷積神經(jīng)網(wǎng)絡(luò)（Dilated Convolution）應(yīng)用于機(jī)器翻譯領(lǐng)域。Dilated convolution實(shí)際上要解決的問題是池化層的池化會(huì)損失很多信息（無論該信息是有用還是無用）。Dilated convolution的主要貢獻(xiàn)就是，如何在去掉池化操作的同時(shí)，而不降低網(wǎng)絡(luò)的感受野。下圖理解起來更加容易，卷積的輸入像素的間距由1-2-4-8，雖然沒有池化層，但是隨著層數(shù)越深覆蓋的原始輸入信息依舊在增加。也就是我們通常卷積核與輸入的一個(gè)區(qū)域的維度大小保持一致，但是去掉池化層后，我們隨著深度增加，卷積核的所能覆蓋的輸入?yún)^(qū)域擴(kuò)展一倍。

在該模型中，句子建模時(shí)輸入是以句子的字符級(jí)別開始的，之后隨著卷積核所能覆蓋的范圍擴(kuò)展，不斷地去交互信息，同時(shí)還能夠保證原始的輸入信息不被丟失。

之前的論文中主要是對(duì)卷積層和池化層從本身結(jié)構(gòu)上進(jìn)行改造，下面的這篇論文主要考慮到了本身句子已有依存句法樹信息，將其融入到句子的建模中來。論文《Dependency-based Convolutional Neural Networks for Sentence Embedding》便是提出這一想法，模型的想法是，不僅僅是利用句子中相鄰的詞信息作為特征信息，一個(gè)依存句法樹的實(shí)際上將句子的語(yǔ)義信息關(guān)系真正地提取出來，由于整個(gè)卷積的過程，句子的語(yǔ)序關(guān)系仍然會(huì)丟失，通過將依存句法樹中父子節(jié)點(diǎn)的語(yǔ)序信息和兄弟語(yǔ)序信息一起作為輸入，可以更加有效地抽取句子的特征。

最后要介紹的一篇論文是有關(guān)于句子匹配(Sentence Matching)的問題，基礎(chǔ)問題仍然是句子建模。首先，文中提出了一種基于CNN的句子建模網(wǎng)絡(luò)，卷積的作用是從句子中提取出局部的語(yǔ)義組合信息，而多個(gè)Feature Map則是從多種角度進(jìn)行提取，也就是保證提取的語(yǔ)義組合的多樣性。分別單獨(dú)地對(duì)兩個(gè)句子進(jìn)行建模（使用上文中的句子模型），從而得到兩個(gè)相同且固定長(zhǎng)度的向量，然后，將這兩個(gè)向量作為一個(gè)多層感知機(jī)(MLP)的輸入，最后計(jì)算匹配的分?jǐn)?shù)。

這個(gè)模型比較簡(jiǎn)單，但是有一個(gè)較大的缺點(diǎn)，兩個(gè)句子在建模過程中是完全獨(dú)立的，沒有任何交互行為，一直到最后生成抽象的向量表示后才有交互行為，這樣做使得句子在抽象建模的過程中會(huì)喪失很多語(yǔ)義細(xì)節(jié)，因此，推出了第二種模型結(jié)構(gòu)。

這種結(jié)構(gòu)提前了兩個(gè)句子間的交互行為,第一層中，首先取一個(gè)固定的卷積窗口

，然后遍歷中所有組合的二維矩陣進(jìn)行卷積，每一個(gè)二維矩陣輸出一個(gè)值，構(gòu)成Layer-2，然后進(jìn)行2×2的Max-pooling，后續(xù)的卷積層均是傳統(tǒng)的二維卷積操作。

總結(jié)/Q&A

本篇綜述中具體介紹了卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)以及應(yīng)用于自然語(yǔ)言處理中的場(chǎng)景，最后再做一個(gè)簡(jiǎn)單地歸納總結(jié)。

還有一些有關(guān)卷積神經(jīng)網(wǎng)絡(luò)細(xì)節(jié)上的問題與答案，與大家分享。

卷積層和池化層有什么區(qū)別？

首先可以從結(jié)構(gòu)上可以看出，卷積之后輸出層的維度減小，深度變深。但池化層深度不變。同時(shí)池化可以把很多數(shù)據(jù)用最大值或者平均值代替。目的是降低數(shù)據(jù)量。降低訓(xùn)練的參數(shù)。對(duì)于輸入層，當(dāng)其中像素在鄰域發(fā)生微小位移時(shí)，池化層的輸出是不變的，從而能提升魯棒性。而卷積則是把數(shù)據(jù)通過一個(gè)卷積核變化成特征，便于后面的分離。

采用寬卷積的好處有什么？

通過將輸入邊角的值納入到滑窗中心進(jìn)行計(jì)算，以便損失更少的信息。

卷積輸出的深度與哪個(gè)部件的個(gè)數(shù)相同？

輸出深度（通道）與卷積核（過濾器）的個(gè)數(shù)相等。

激活函數(shù)通常放在卷積神經(jīng)網(wǎng)絡(luò)的那個(gè)操作之后？

通常放在卷積層之后。

為什么激活函數(shù)通常都是采用非線性的函數(shù)？

如果網(wǎng)絡(luò)中都采用線性函數(shù)的組合，那么線性的組合還是線性，那么使用多次線性組合就等同于使用了一次線性函數(shù)。因此采用非線性函數(shù)可以來逼近任意函數(shù)。

非線性激活函數(shù)中sigmod函數(shù)存在哪些不足？

Sigmod函數(shù)存在飽和狀態(tài)，尤其是值過大時(shí)，當(dāng)進(jìn)入飽和狀態(tài)時(shí)，進(jìn)行梯度下降計(jì)算時(shí)，很容易出現(xiàn)梯度消失的情況，求導(dǎo)的精確值不能保證。

ReLU和SoftPlus激活函數(shù)有哪些優(yōu)勢(shì)？

與sigmod相比，不存在指數(shù)計(jì)算，求導(dǎo)計(jì)算量變小，同時(shí)緩解了過擬合的情況，一部分輸出為0，減少了參數(shù)的相互依存。

摘自微信公眾號(hào)“人工智能頭條”――從CNN視角看自然語(yǔ)言上的應(yīng)用

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

從CNN視角看自然語(yǔ)言處理上的應(yīng)用

從CNN視角看自然語(yǔ)言處理上的應(yīng)用

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

從CNN視角看自然語(yǔ)言處理上的應(yīng)用

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频