摘要:作者提出一個(gè)Convolutional Block Attention Module(CBAM)。給定一個(gè)特征圖,作者的模塊可從兩個(gè)維度(通道和空間)按順序地推出注意力圖,然后將注意力圖與輸入的特征圖進(jìn)行點(diǎn)積,從而可以自適應(yīng)地提煉特征。因?yàn)镃BAM是個(gè)輕量級(jí)的通用模塊,所有它可以整合到任何CNN框架中,并且計(jì)算成本幾乎不變。
1.Introduction
為了提高CNN的性能,最近的研究主要關(guān)注網(wǎng)絡(luò)的三個(gè)因素:深度,寬度和cardinality。Xception和ResNeXt被提出來(lái)增加網(wǎng)絡(luò)的cardinality。這證明了cardinality不僅節(jié)省了參數(shù)總數(shù),而且比深度和寬度具有更強(qiáng)的表示能力。
因?yàn)榫矸e操作通過(guò)混合跨通道和空間信息來(lái)提取有用特征,所以作者的模塊會(huì)在這兩個(gè)重要的維度上(通道和空間軸)提取特征。為了達(dá)到這一點(diǎn),作者依次應(yīng)用通道和空間注意力模塊,因此每個(gè)分支都可以在通道和空間軸上”學(xué)習(xí)什么“和”在哪里學(xué)習(xí)“。將CBAM嵌入到其他模型后,發(fā)現(xiàn)其準(zhǔn)確度提高。作者推測(cè),這種提高來(lái)自于對(duì)無(wú)關(guān)雜波的精確的注意和降噪。
本文的貢獻(xiàn)有:
提出了一種簡(jiǎn)單而有效的注意力模塊(CBAM),可廣泛應(yīng)用于提高CNNs的表示能力;
3.Convolutional Block Attention Module
Channel attention module. 由于特種圖的每個(gè)通道都被看作是一個(gè)特征檢測(cè)器,所以在給定的輸入圖像下,通道的注意力會(huì)集中在”什么“是有意義的。為了有效地計(jì)算通道注意力,作者壓縮了輸入特征圖的空間維數(shù)。對(duì)于空間信息的聚合,目前普遍采用平均池化的方法。Zhou等人認(rèn)為使用它來(lái)有效學(xué)習(xí)目標(biāo)對(duì)象的范圍。而Hu等人在他們的注意力模塊中采用它來(lái)計(jì)算空間統(tǒng)計(jì)。除了以前的工作,作者認(rèn)為最大池化收集了另一個(gè)關(guān)于獨(dú)特目標(biāo)特征的重要線索,從而推斷出更好的通道級(jí)的注意力。因此,作者同時(shí)利用了平均池化和最大池化特征。作者證明了利用兩個(gè)特征能提高網(wǎng)絡(luò)的表示能力。
作者首先通過(guò)利用平均池化和最大池化操作來(lái)整合特征圖的空間信息,從而生成兩個(gè)不同的空間上下文描述器,分別表示經(jīng)過(guò)平均池化和最大池化的特征。
Spatial attention module. 作者利用特征間的空間關(guān)系來(lái)生成空間注意力圖??臻g注意不同于通道注意,它側(cè)重于信息部分的位置,是對(duì)渠道注意的補(bǔ)充。為了計(jì)算空間注意力,作者首先沿著通道軸應(yīng)用平均池化和最大池化,并且concat它們來(lái)生成一個(gè)有效的特征描述器。沿著通道軸池化操作可以有效突出有用的區(qū)域。在已經(jīng)concat好的特征描述器中,作者用一個(gè)卷積層來(lái)生成空間注意力圖,它能編碼要強(qiáng)調(diào)或抑制的區(qū)域。
Arrangement of attention modules. 作者發(fā)現(xiàn)對(duì)于兩個(gè)注意力模塊,順序排列比并行排列的結(jié)果更好。而且先用通道注意力,再用空間注意力的效果更好。
4.Experiments
4.1 Ablation studies
Channel attention. 作者認(rèn)為最大池化特征(對(duì)最顯著部分進(jìn)行編碼的程度)可以彌補(bǔ)平均池化特征(對(duì)全局統(tǒng)計(jì)特征進(jìn)行編碼)。因此,作者建議同時(shí)采用兩個(gè)特征并對(duì)兩個(gè)特征共享同一個(gè)網(wǎng)絡(luò)。
Spatial attention. 作者發(fā)現(xiàn)采用通道池化可以產(chǎn)生更高精確度,這表明顯式地對(duì)池化建模會(huì)產(chǎn)生更好的注意力推斷,而不是可學(xué)習(xí)的加權(quán)通道池化(用1x1卷積執(zhí)行)。同時(shí)作者發(fā)現(xiàn)采用一個(gè)更大的核大小會(huì)產(chǎn)生更好的結(jié)果。這意味著需要一個(gè)更寬廣的視野(即大的感受野)來(lái)決定空間上重要的區(qū)域。
Arrangement of the channel and spatial attention. 因?yàn)槊總€(gè)模塊有不同功能,所以通道和空間注意力的先后次序會(huì)影響模型的整體性能。例如,從空間的角度看,通道注意力是應(yīng)用的全局的,而空間注意力是應(yīng)用在局部的。
作者發(fā)現(xiàn)對(duì)通道注意和空間注意進(jìn)行排序,生成的注意力圖的效果要好于讓兩個(gè)注意機(jī)制并排計(jì)算而產(chǎn)生的注意力圖。
4.2 Image Classification on ImageNet-1K
作者發(fā)現(xiàn)CBAM的參數(shù)和計(jì)算量都是較小的。
4.3 Network Visualization with Grad-CAM
Grad-CAM是一個(gè)可視化方法,它利用梯度來(lái)計(jì)算卷積層中空間位置的重要性。因?yàn)樘荻葧?huì)通過(guò)一個(gè)單獨(dú)的類來(lái)計(jì)算出來(lái),所以Grad-CAM的結(jié)果能夠清楚展示受關(guān)注的區(qū)域。通過(guò)觀察網(wǎng)絡(luò)在預(yù)測(cè)某個(gè)類時(shí)認(rèn)為很重要的區(qū)域,作者試圖發(fā)現(xiàn)這個(gè)網(wǎng)絡(luò)是如何利用特征的。