【深度學(xué)習(xí)】從seq2seq到Transformer學(xué)習(xí)記錄

背景

Encoder-Decoder是個(gè)非常通用的計(jì)算框架，至于Encoder和Decoder具體使用什么模型都是由研究者自己定的，常見(jiàn)的比如 CNN / RNN / BiRNN / GRU / LSTM / Deep LSTM 等，這里的變化組合非常多。

seq2seq（14年）

seq2seq 是一個(gè) Encoder–Decoder 結(jié)構(gòu)的網(wǎng)絡(luò)，它的輸入是一個(gè)序列，輸出也是一個(gè)序列。
Encoder 中將一個(gè)可變長(zhǎng)度的信號(hào)序列變?yōu)楣潭ㄩL(zhǎng)度的向量表達(dá)，Decoder 將這個(gè)固定長(zhǎng)度的向量變成可變長(zhǎng)度的目標(biāo)的信號(hào)序列。
這個(gè)結(jié)構(gòu)最重要的地方在于輸入序列和輸出序列的長(zhǎng)度是可變的，可以用于翻譯，聊天機(jī)器人，句法分析，文本摘要等。

Encoder 對(duì)輸入語(yǔ)句 X 進(jìn)行編碼，經(jīng)過(guò)函數(shù)變換為中間語(yǔ)義向量 C，得到中間語(yǔ)義向量 C 后，使用 Decoder 進(jìn)行解碼。Decoder根據(jù)中間狀態(tài)向量 C 和已經(jīng)生成的歷史信息 yi-1 去生成 t 時(shí)刻的單詞 yi

兩種模型

如果將 c 直接輸入到Decoder中，則是 Seq2Seq 模型的第二種模型：

c直接作為Decoder階段RNN的初始化state，而不是在每次decode時(shí)都作為RNN cell的輸入。

$h'_0=c$
$h'_t=f(h'_{t-1},y_{t-1})$
$y_t=g(h'_t,y_{t-1})$

如果將 c 當(dāng)作 Decoder 的每一時(shí)刻輸入，則是 Seq2Seq 模型的第一種模型：

$h'_t=f(c, h'_{t-1}, y_{t-1})$
$y_t=g(h'_t,y_{t-1},c)$

tip:g函數(shù)往往是一個(gè)softmax函數(shù)

Seq-to-Seq with Attention（14年）

Encoder-Decoder 模型的局限性：

中間語(yǔ)義向量無(wú)法完全表達(dá)整個(gè)輸入序列的信息。Encoder 和 Decoder 的唯一聯(lián)系只有語(yǔ)義編碼Ｃ，即將整個(gè)輸入序列的信息編碼成一個(gè)固定大小的狀態(tài)向量再解碼，相當(dāng)于將信息”有損壓縮”。
句子X(jué)中任意單詞對(duì)生成某個(gè)目標(biāo)單詞yi來(lái)說(shuō)影響力都是相同的，沒(méi)有任何區(qū)別
RNN難以處理長(zhǎng)序列的句子。隨著輸入信息長(zhǎng)度的增加，由于向量長(zhǎng)度固定，先前編碼好的信息會(huì)被后來(lái)的信息覆蓋，丟失很多信息。
每個(gè)時(shí)間步的輸出需要依賴于前面時(shí)間步的輸出，這使得模型沒(méi)有辦法并行，效率低；
并且面臨對(duì)齊問(wèn)題。

引入Attention機(jī)制優(yōu)點(diǎn)：

打破了只能利用encoder最終單一向量結(jié)果的限制，從而使模型可以集中在所有對(duì)于下一個(gè)目標(biāo)單詞重要的輸入信息上，使模型效果得到極大的改善。
可解釋性。我們通過(guò)觀察attention 權(quán)重矩陣的變化，可以更好地知道哪部分翻譯對(duì)應(yīng)哪部分源文字。

Ａttention 模型的特點(diǎn)是 Decoder 不再將整個(gè)輸入序列編碼為固定長(zhǎng)度的中間語(yǔ)義向量Ｃ，而是根據(jù)當(dāng)前生成的新單詞計(jì)算新的 $C_{i}$ ，使得每個(gè)時(shí)刻輸入不同的Ｃ，這樣就解決了單詞信息丟失的問(wèn)題。引入了 Ａttention 的 Encoder-Decoder 模型如下圖：

原來(lái)：

現(xiàn)在：
$h'_t=f(c_t, h'_{t-1}, y_{t-1})$
$y_t=g(h'_t,y_{t-1},c_t)$

attention 權(quán)重矩陣的計(jì)算

這里關(guān)鍵的操作是計(jì)算encoder與decoder state之間的關(guān)聯(lián)性的權(quán)重，得到Attention分布，從而對(duì)于當(dāng)前輸出位置得到比較重要的輸入位置的權(quán)重，在預(yù)測(cè)輸出時(shí)相應(yīng)的會(huì)占較大的比重。

Attention（17年）

背景：attention mechanism通常和RNN結(jié)合使用，每個(gè)時(shí)間步的輸出需要依賴于前面時(shí)間步的輸出，這使得模型沒(méi)有辦法并行，效率低；

應(yīng)用：機(jī)器翻譯，圖片描述，語(yǔ)音轉(zhuǎn)文字

注意力模型優(yōu)勢(shì)：

提高任務(wù)性能
提高模型的可解釋性
并行計(jì)算減少模型訓(xùn)練時(shí)間。Attention機(jī)制每一步計(jì)算不依賴于上一步的計(jì)算結(jié)果，因此可以和CNN一樣并行處理。但是CNN也只是每次捕捉局部信息，通過(guò)層疊來(lái)獲取全局的聯(lián)系增強(qiáng)視野。
可以靈活的捕捉長(zhǎng)期和local依賴，而且是一步到位的。AM解決了RNN模型的很多問(wèn)題，例如在面對(duì)長(zhǎng)文本時(shí)的性能衰減，以及計(jì)算序列數(shù)據(jù)對(duì)任務(wù)的權(quán)重影響等。

可以從兩個(gè)角度來(lái)分類Attention：

Spatial Attention 空間注意力和Temporal Attention 時(shí)間注意力。
Soft Attention和Hard Attention。Soft Attention是所有的數(shù)據(jù)都會(huì)注意，都會(huì)計(jì)算出相應(yīng)的注意力權(quán)值，不會(huì)設(shè)置篩選條件。Hard Attention會(huì)在生成注意力權(quán)重后篩選掉一部分不符合條件的注意力，讓它的注意力權(quán)值為0，即可以理解為不再注意這些不符合條件的部分。

通用理解

Attention is all you need
本文的創(chuàng)新點(diǎn)在于拋棄了之前傳統(tǒng)的encoder-decoder模型必須結(jié)合cnn或者rnn的固有模式，只用attention。文章的主要目的是在減少計(jì)算量和提高并行效率的同時(shí)不損害最終的實(shí)驗(yàn)結(jié)果，創(chuàng)新之處在于提出了兩個(gè)新的Attention機(jī)制，分別叫做 Scaled Dot-Product Attention 和 Multi-Head Attention。提出了transformer。

將Source中的構(gòu)成元素想象成是由一系列的<Key,Value>數(shù)據(jù)對(duì)構(gòu)成，此時(shí)給定Target中的某個(gè)元素Query，通過(guò)計(jì)算Query和各個(gè)Key的相似性或者相關(guān)性，得到每個(gè)Key對(duì)應(yīng)Value的權(quán)重系數(shù)，然后對(duì)Value進(jìn)行加權(quán)求和，即得到了最終的Attention數(shù)值。本質(zhì)上Attention機(jī)制是對(duì)Source中元素的Value值進(jìn)行加權(quán)求和，而Query和Key用來(lái)計(jì)算對(duì)應(yīng)Value的權(quán)重系數(shù)。其實(shí)就是一個(gè)查詢(query)到一系列鍵值(key-value)對(duì)的映射。

從概念上理解，把Attention仍然理解為從大量信息中有選擇地篩選出少量重要信息并聚焦到這些重要信息上，忽略大多不重要的信息，這種思路仍然成立。聚焦的過(guò)程體現(xiàn)在權(quán)重系數(shù)的計(jì)算上，權(quán)重越大越聚焦于其對(duì)應(yīng)的Value值上，即權(quán)重代表了信息的重要性，而Value是其對(duì)應(yīng)的信息。

scaled dot-product attention

? $attention(Q,K,V) = softmax(\frac{QK^T}{\sqrt{d_k}})V$

attention函數(shù)共有三步完成得到attention value。

Q與K進(jìn)行相似度計(jì)算得到權(quán)值
計(jì)算Query和每個(gè)Key之間的相似性或相關(guān)性一般有三種方式：

dot: $Q^TK_i$
General: $Q^TW_aK_i$
Concat: $W_a[Q,K_i]$
Preceptron: $V^T_atanh(W_aQ+U_aK_i)$

對(duì)上部權(quán)值歸一化

$a_i = softmax(f(Q,K_i)) = \frac{exp(f(Q,K_I))}{\sum_j(f(Q,K_i))}$
用歸一化的權(quán)值與V加權(quán)求和

$Attention(query,source) = \sum_ia_iV_i$

其意義為：為了用 value求出 query的結(jié)果, 根據(jù) query和 key 來(lái)決定注意力應(yīng)該放在value的哪部分。以前的 attention是用 LSTM 做 encoder，也就是用它來(lái)生成key 和 value，然后由 decoder來(lái)生成 query。(論文 Neural machine translation by jointly learning to align and translate，key 和 value是一樣的，都是文中的h ，而 query是文中的 s。)

有兩種常用的注意力函數(shù)，一種是加法注意力(additive attention)，另外一種是點(diǎn)乘注意力(dot-productattention)，論文所采用的就是點(diǎn)乘注意力，這種注意力機(jī)制對(duì)于加法注意力而言，更快，同時(shí)更節(jié)省空間。

為什么scaling：

如果?太大，點(diǎn)乘的值太大，如果不做scaling，結(jié)果就沒(méi)有加法注意力好。(d_k是key和query的維度)
點(diǎn)乘的結(jié)果過(guò)大，這使得經(jīng)過(guò)softmax之后的梯度很小，不利于反向傳播的進(jìn)行，所以我們通過(guò)對(duì)點(diǎn)乘的結(jié)果進(jìn)行尺度化。

Multi-head Attention

這里面Multi-head Attention其實(shí)就是多個(gè)Self-Attention結(jié)構(gòu)的結(jié)合，每個(gè)head學(xué)習(xí)到在不同表示空間中的特征，如下圖所示，兩個(gè)head學(xué)習(xí)到的Attention側(cè)重點(diǎn)可能略有不同，這樣給了模型更大的容量。

self attention

Google最新的機(jī)器翻譯模型內(nèi)部大量采用了Self Attention模型。

在一般任務(wù)的Encoder-Decoder框架中，輸入Source和輸出Target內(nèi)容是不一樣的，比如對(duì)于英-中機(jī)器翻譯來(lái)說(shuō)，Source是英文句子，Target是對(duì)應(yīng)的翻譯出的中文句子，Attention機(jī)制發(fā)生在Target的元素和Source中的所有元素之間。而Self Attention顧名思義，可以理解為Target=Source這種特殊情況下的注意力計(jì)算機(jī)制，指的不是Target和Source之間的Attention機(jī)制。

優(yōu)點(diǎn)：

引入Self Attention后會(huì)更容易捕獲句子中長(zhǎng)距離的相互依賴的特征，因?yàn)槿绻荝NN或者LSTM，需要依次序序列計(jì)算，對(duì)于遠(yuǎn)距離的相互依賴的特征，要經(jīng)過(guò)若干時(shí)間步步驟的信息累積才能將兩者聯(lián)系起來(lái)，而距離越遠(yuǎn)，有效捕獲的可能性越小。
Self Attention對(duì)于增加計(jì)算的并行性也有直接幫助作用。

Transformer

Encoder: encoder由6個(gè)相同的層堆疊而成，每個(gè)層有兩個(gè)子層。第一個(gè)子層是多頭自我注意力機(jī)制(multi-head self-attention mechanism)，第二層是簡(jiǎn)單的位置的全連接前饋網(wǎng)絡(luò)(position-wise fully connected feed-forward network)。在兩個(gè)子層中會(huì)使用一個(gè)殘差連接，接著進(jìn)行層標(biāo)準(zhǔn)化(layer normalization)。也就是說(shuō)每一個(gè)子層的輸出都是LayerNorm(x + sublayer(x))。網(wǎng)絡(luò)輸入是三個(gè)相同的向量q, k和v，是word embedding和position embedding相加得到的結(jié)果。為了方便進(jìn)行殘差連接，我們需要子層的輸出和輸入都是相同的維度。
Decoder: decoder也是由N（N=6）個(gè)完全相同的Layer組成，decoder中的Layer由encoder的Layer中插入一個(gè)Multi-Head Attention + Add&Norm組成。輸出的embedding與輸出的position embedding求和做為decoder的輸入，經(jīng)過(guò)一個(gè)Multi-HeadAttention + Add&Norm（（MA-1）層，MA-1層的輸出做為下一Multi-Head Attention + Add&Norm（MA-2）的query（Q）輸入。MA-2層的輸出輸入到一個(gè)前饋層（FF），經(jīng)過(guò)AN操作后，經(jīng)過(guò)一個(gè)線性+softmax變換得到最后目標(biāo)輸出的概率。對(duì)于decoder中的第一個(gè)多頭注意力子層，需要添加masking，確保預(yù)測(cè)位置i的時(shí)候僅僅依賴于位置小于i的輸出。層與層之間使用的Position-wise feed forward network。

key, query, value

對(duì)于encoder來(lái)說(shuō)，其中key, query, value均來(lái)自前一層encoder的輸出，即encoder的每個(gè)位置都可以注意到之前一層encoder的所有位置。
對(duì)于decoder來(lái)講，有兩個(gè)與encoder不同的地方：
- 一個(gè)是第一級(jí)的Masked Multi-head。key, query, value均來(lái)自前一層decoder的輸出，但加入了Mask操作，即我們只能attend到前面已經(jīng)翻譯過(guò)的輸出的詞語(yǔ)，因?yàn)榉g過(guò)程我們當(dāng)前還并不知道下一個(gè)輸出詞語(yǔ)，這是我們之后才會(huì)推測(cè)到的。
- 另一個(gè)是第二級(jí)的Multi-Head Attention不僅接受來(lái)自前一級(jí)decoder的輸出，還要接收encoder的輸出。第二級(jí)decoder也被稱作encoder-decoder attention layer，即它的query來(lái)自于之前一級(jí)的decoder層的輸出，但其key和value來(lái)自于encoder的輸出，這使得decoder的每一個(gè)位置都可以attend到輸入序列的每一個(gè)位置。
- 總結(jié)一下，k和v的來(lái)源總是相同的，q在encoder及第一級(jí)decoder中與k,v來(lái)源相同，在encoder-decoder attention layer中與k,v來(lái)源不同。

因此，Transformer會(huì)在三個(gè)不同的方面使用multi-head attention：

encoder-decoder attention：使用multi-head attention，輸入為encoder的輸出和decoder的self-attention輸出，其中encoder的self-attention作為 key and value，decoder的self-attention作為query
encoder self-attention：使用 multi-head attention，輸入的Q、K、V都是一樣的（input embedding and positional embedding）
decoder self-attention：在decoder的self-attention層中，deocder 都能夠訪問(wèn)當(dāng)前位置前面的位置

position encoding

注意由于該模型沒(méi)有recurrence或convolution操作，所以沒(méi)有明確的關(guān)于單詞在源句子中位置的相對(duì)或絕對(duì)的信息，為了更好的讓模型學(xué)習(xí)位置信息，所以添加了position encoding并將其疊加在word embedding上。該論文中選取了三角函數(shù)的encoding方式，其他方式也可以。

Add+Norm

其中Add代表了Residual Connection，是為了解決多層神經(jīng)網(wǎng)絡(luò)訓(xùn)練困難的問(wèn)題，通過(guò)將前一層的信息無(wú)差的傳遞到下一層，可以有效的僅關(guān)注差異部分，這一方法之前在圖像處理結(jié)構(gòu)如ResNet等中常常用到。 $F(x)+x$

而Norm則代表了Layer Normalization，通過(guò)對(duì)層的激活值的歸一化，可以加速模型的訓(xùn)練過(guò)程，使其更快的收斂，

參考文獻(xiàn)：

詳解從 Seq2Seq模型、RNN結(jié)構(gòu)、Encoder-Decoder模型到 Attention模型
【NLP】Attention Model（注意力模型）學(xué)習(xí)總結(jié)(https://www.cnblogs.com/guoyaohua/p/9429924.html)
深度學(xué)習(xí)對(duì)話系統(tǒng)理論篇--seq2seq+Attention機(jī)制模型詳解
論文筆記：Attention is all you need
Attention機(jī)制詳解（二）——Self-Attention與Transformer
Attention 機(jī)制學(xué)習(xí)小結(jié)

最后編輯于：2019.06.24 11:05:40

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點(diǎn)，簡(jiǎn)書系信息發(fā)布平臺(tái)，僅提供信息存儲(chǔ)服務(wù)。

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 230,527評(píng)論 6贊 544
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 99,687評(píng)論 3贊 429
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人，你說(shuō)我怎么就攤上這事。” “怎么了？”我有些...
開(kāi)封第一講書人閱讀 178,640評(píng)論 0贊 383
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)。經(jīng)常有香客問(wèn)我，道長(zhǎng)，這世上最難降的妖魔是什么？我笑而不...
開(kāi)封第一講書人閱讀 63,957評(píng)論 1贊 318
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 72,682評(píng)論 6贊 413
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書人閱讀 56,011評(píng)論 1贊 329
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音，去河邊找鬼。笑死，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 44,009評(píng)論 3贊 449
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書人閱讀 43,183評(píng)論 0贊 290
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 49,714評(píng)論 1贊 336
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 41,435評(píng)論 3贊 359
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 43,665評(píng)論 1贊 374
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 39,148評(píng)論 5贊 365
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 44,838評(píng)論 3贊 350
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開(kāi)封第一講書人閱讀 35,251評(píng)論 0贊 28
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背。一陣腳步聲響...
開(kāi)封第一講書人閱讀 36,588評(píng)論 1贊 295
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個(gè)月前我還...
沈念sama閱讀 52,379評(píng)論 3贊 400
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 48,627評(píng)論 2贊 380

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

【深度學(xué)習(xí)】從seq2seq到Transformer學(xué)習(xí)記錄

【深度學(xué)習(xí)】從seq2seq到Transformer學(xué)習(xí)記錄

背景

seq2seq（14年）

兩種模型

Seq-to-Seq with Attention（14年）

attention 權(quán)重矩陣的計(jì)算

Attention（17年）

通用理解

scaled dot-product attention

Multi-head Attention

self attention

Transformer

key, query, value

position encoding

Add+Norm

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

【深度學(xué)習(xí)】從seq2seq到Transformer學(xué)習(xí)記錄

背景

seq2seq（14年）

兩種模型

Seq-to-Seq with Attention（14年）

attention 權(quán)重矩陣的計(jì)算

Attention（17年）

通用理解

scaled dot-product attention

Multi-head Attention

self attention

Transformer

key, query, value

position encoding

Add+Norm

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频