ICLR 2019 | 采用輕量化及動態卷積替代注意力機制

Self-attention是建立語言及圖像生成模型的有效機制,其通過比較當前時間步中的各個元素,來決定上下文元素的重要程度。文中提出使用lightweight convolutions替代self-attention,結果表現的就很不錯。隨后提出了dynamic convolutions,此時卷積核將在當前時間步中通過函數生成,此方法與self-attention相比有較大提升。并且這種方法所需要的計算量與輸入的長度呈線性增長,而自注意力則是呈二次增長的。此方法在WMT’14 English-German 的測試集上的BLEU得分為29.7。

論文地址:

https://arxiv.org/abs/1901.10430

代碼地址:

https://github.com/pytorch/fairseq

引言

Dynamic convolution每個channel獨立進行卷積,注意到放到NLP任務上channel是指embedding的每一維。每一層都有固定的window size,這和self-attention不同。self-attention是所有的context都進行交互,使其計算的復雜度與輸入長度呈二次增長關系,在對長句子的計算上將極具挑戰性。

模型

其中,GLU(Gate Linear Units):$h_l = (X*W+b) \otimes \sigma(X*V+c)$

Depthwise convolutions

傳統的卷積核如下:

如果d_{in}=d_{out}=d,參數量為d^2k,其中k為卷積核的寬度。

為降低參數,采用如下depthwise convolutions。

如圖所示,i=2c=5k=3O_{2,5}=W_{5,1:3}X_{1:3,5}

使用depthwise convolutions,可將參數量由d^2k降為dk,其中k為卷積核的寬度。

Lightweight convolutions

如圖所示,H=3X分割為3個區域,WX相同顏色區域進行相乘,共享參數。

通過Weight sharing,參數的數量繼續下降為Hk

Softmax-normalization 對channel一維進行softmax,相當于歸一化每個詞的每一維的的重要性(比self-attention更精細)。實驗證明,如果沒有softmax沒辦法收斂。

Dynamic convolution

在每一個時間步中,通過函數動態生成卷積核。

其中f:R^d \rightarrow R^{H \times k}f是一個線性映射,其中權重W^Q \in R^{H \times k \times d}f(X_i)=\sum^d_{c=1}W^Q_{h,j,c}X_{i,c}

在動態生成卷積核時,每個X_i對應的權重W_i,將在當前時間步中通過函數映射生成。其中,右側圖為幫助理解,實際計算中并未進行view步驟。

模型替換

模型在transformer中的位置如下圖所示:

如圖所示,在encoder端,使用LightCov或DynamicConv替代Multi-Head Attention;在decoder端,LightCov或DynamicConv替代第一層的Masked Multi-Head Attention,并且將Mask放入第二層的。

結論

1.Lightweight convolution的權重盡量少并且在不同的時間步中是不變的,但是結果已經與現有文獻最佳結果相當。

2.Dynamic convolution在不同的時間步中生成相應的權重,這點與self-attention相似,但是函數只有當前時間步有關而不是整個上下文。

3.Ligthweight convolution 和 dynamic convolution 在運行時間上都不self-attention快20%。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 掃碼識別關注,獲取更多新鮮論文解讀

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容

  • 陪孩子一起讀繪本,《一千零一夜》,淺顯中蘊含著人生哲學,值得細細品味。 *001 阿拉丁神燈 勇敢的阿拉丁通過努力...
    玄子一一遇見最美閱讀 505評論 9 14
  • 一定要多畫,多看,多學習,多思考
    瘦曉白閱讀 404評論 0 1
  • 一、詠竹泉 讀罷詩友詠竹泉, 馬不停蹄奔沂南。 躋身竹泉恨來晚, 忘卻浮生憂和煩。 泉溢清波漫街流, 竹隨高風靚姿...
    ZHOU春雨閱讀 338評論 1 5