三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

<pre id="55arb"><tt id="55arb"></tt></pre>

登錄注冊寫文章

ICLR 2019 | 采用輕量化及動態卷積替代注意力機制

ICLR 2019 | 采用輕量化及動態卷積替代注意力機制

Self-attention是建立語言及圖像生成模型的有效機制，其通過比較當前時間步中的各個元素，來決定上下文元素的重要程度。文中提出使用lightweight convolutions替代self-attention，結果表現的就很不錯。隨后提出了dynamic convolutions，此時卷積核將在當前時間步中通過函數生成，此方法與self-attention相比有較大提升。并且這種方法所需要的計算量與輸入的長度呈線性增長，而自注意力則是呈二次增長的。此方法在WMT’14 English-German 的測試集上的BLEU得分為29.7。

論文地址:

https://arxiv.org/abs/1901.10430

代碼地址:

https://github.com/pytorch/fairseq

引言

Dynamic convolution每個channel獨立進行卷積，注意到放到NLP任務上channel是指embedding的每一維。每一層都有固定的window size，這和self-attention不同。self-attention是所有的context都進行交互，使其計算的復雜度與輸入長度呈二次增長關系，在對長句子的計算上將極具挑戰性。

模型

其中，GLU(Gate Linear Units)： $h_l = (X*W+b) \otimes \sigma(X*V+c)$

Depthwise convolutions

傳統的卷積核如下：

如果 $d_{in}=d_{out}=d$ ，參數量為 $d^2k$ ，其中 $k$ 為卷積核的寬度。

為降低參數，采用如下depthwise convolutions。

如圖所示， $i=2$ ， $c=5$ ， $k=3$ ， $O_{2,5}=W_{5,1:3}X_{1:3,5}$ 。

使用depthwise convolutions，可將參數量由 $d^2k$ 降為 $dk$ ，其中 $k$ 為卷積核的寬度。

Lightweight convolutions

如圖所示， $H=3$ ， $X$ 分割為3個區域， $W$ 與 $X$ 相同顏色區域進行相乘，共享參數。

通過Weight sharing，參數的數量繼續下降為 $Hk$ 。

Softmax-normalization 對channel一維進行softmax，相當于歸一化每個詞的每一維的的重要性（比self-attention更精細）。實驗證明，如果沒有softmax沒辦法收斂。

Dynamic convolution

在每一個時間步中，通過函數動態生成卷積核。

其中 $f:R^d \rightarrow R^{H \times k}$ ， $f$ 是一個線性映射，其中權重 $W^Q \in R^{H \times k \times d}$ ， $f(X_i)=\sum^d_{c=1}W^Q_{h,j,c}X_{i,c}$ 。

在動態生成卷積核時，每個 $X_i$ 對應的權重 $W_i$ ，將在當前時間步中通過函數映射生成。其中，右側圖為幫助理解，實際計算中并未進行view步驟。

模型替換

模型在transformer中的位置如下圖所示：

如圖所示，在encoder端，使用LightCov或DynamicConv替代Multi-Head Attention；在decoder端，LightCov或DynamicConv替代第一層的Masked Multi-Head Attention，并且將Mask放入第二層的。

結論

1.Lightweight convolution的權重盡量少并且在不同的時間步中是不變的，但是結果已經與現有文獻最佳結果相當。

2.Dynamic convolution在不同的時間步中生成相應的權重，這點與self-attention相似，但是函數只有當前時間步有關而不是整個上下文。

3.Ligthweight convolution 和 dynamic convolution 在運行時間上都不self-attention快20%。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 掃碼識別關注，獲取更多新鮮論文解讀

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

推薦閱讀更多精彩內容

1203讀書清單——一千零一夜
陪孩子一起讀繪本，《一千零一夜》，淺顯中蘊含著人生哲學，值得細細品味。 *001 阿拉丁神燈勇敢的阿拉丁通過努力...
玄子一一遇見最美閱讀 505評論 9贊 14
小蘋果
一定要多畫，多看，多學習，多思考
瘦曉白閱讀 404評論 0贊 1
游記四首
一、詠竹泉讀罷詩友詠竹泉，馬不停蹄奔沂南。躋身竹泉恨來晚，忘卻浮生憂和煩。泉溢清波漫街流，竹隨高風靚姿...
ZHOU春雨閱讀 338評論 1贊 5

1贊2贊

贊賞

手機看全文

主站蜘蛛池模板：扎鲁特旗| 镇原县| 江口县| 商南县| 绍兴市| 大悟县| 南汇区| 密山市| 剑川县| 肇州县| 东乌| 大名县| 会昌县| 盈江县| 板桥市| 泽州县| 建德市| 聊城市| 汝阳县| 平顶山市| 灌阳县| 普定县| 云浮市| 渝北区| 剑阁县| 海口市| 庆云县| 开原市| 北辰区| 辛集市| 屏山县| 陆丰市| 南漳县| 沙洋县| 尚义县| 西吉县| 锦屏县| 施秉县| 浦江县| 乌审旗| 亚东县|

<dfn id="mnbjy"></dfn>

<cite id="mnbjy"><track id="mnbjy"></track></cite>