原Paper地址:原文
寫此文只是為了記錄下閱讀paper時的感想,不用做其他用途
?近年來,深入學習在許多計算機視覺應用中取得了巨大的成功。卷積神經網絡(CNN)最近成為圖像分類的主要方法。迄今為止,關于CNN的大多數研究集中在開發諸如Inception , residual networks。卷積層是CNN的核心,但很少有研究針對卷積單元本身。在本文中,引入了稱為主動卷積單元(ACU)的卷積單元。新的卷積沒有固定的形狀,因此我們可以定義任何形式的卷積。它的形狀可以通過反向傳播在訓練中學習。
優點:首先,ACU是一般化的卷積;它不僅可以定義所有傳統的卷積,還可以定義具有局部像素坐標的卷積。我們可以自由地改變卷積的形狀,從而提供更大的自由形成CNN結構。第二,卷積的形狀是在訓練時學習的,沒有必要手動調整。第三,ACU可以比傳統的卷積單元更好地學習,可以通過將傳統卷積改為ACU來獲得改進。
這是原文中關于ACU的concept圖:(以下所有圖片均來至于paper)
其實就是取消了原有的固定的卷積核,改為“自由移動”的位置。
關于傳統的卷積網絡的理解,可以參考這里(不知道為什么,偶爾也會打不開)
Formulation:
傳統的卷積可用如下等式來描述:
?等式中c是輸入通道的標識,b是偏置。 m和n是空間位置,wc,i,j和xc,m,n分別是卷積濾波器的權重和給定信道和位置中的值。
和以上所說的convolution不同的是,ACU還有一組需要學習的位置參數θp,θp是一系列的突觸的位置。
其中k是突觸的標識,pk =(αk,βk)∈R2。參數αk和βk分別定義相對于原點突觸的水平和垂直位移。通過θp,可以定義ACU:
例如,傳統的3×3卷積可以由ACU表示,其中θp= {(-1,-1),(0,-1),(1,-1),( - 1,0), (0,0),(1,0),( - 1,1),(0,1),(1,1)}。
在本文中,θp在所有輸出單元ym,n共享。如果突觸數,輸入通道和輸出通道的數量分別為K,C 和 D,則權重W的大小應為D×C×K。 ACU的附加參數(θp)為2×K;這個數量與權重參數的數量相比非常小。
Forward Pass:
因為位置參數pk是實數,所以Xc,m+αk,n+βk也可以指a nonlattice point(不知道是什么東東)。為了確定局部位置的值,我們使用雙線性插值(定義在這里):
我們可以通過使用四個最接近位置的整數點Q,利用雙線性內插來獲得局部位置的值。
Backward Pass:
?ACU有三種類型的參數:weights,bias,position。他們都可微并且能通過反向傳播算法學習到合適的值。y(m,n)關于權重w,偏置b的偏導數與常規卷積的偏導數相同。
不同的是y(m,n)關于position中的(αk,βk),其偏導數可通過等式(5)(6)很容易的求出:
輸出y(m,n)對輸入的偏導數可簡單的理解為:
由此可以看出來只與權重有關。
Normalized Gradient
突觸位置的反向傳播值的大小控制其移動的大小。如果該值太小,突觸停留在幾乎相同的位置,因此ACU無效。相比之下,一個大的值使得突觸變化多樣化。因此,控制移動的大小很重要。相對于位置的偏導數取決于權重,并且反向傳播的誤差可以在層之間波動。因此,確定位置的學習率是困難的。
減少層間梯度波動的一種方法是僅使用導數的方向,而不是大小。當我們使用歸一化的位置梯度時,我們可以很容易地控制移動位置的大小。在實驗中觀察到,使用歸一化梯度使得訓練更容易,并獲得了良好的效果。歸一化的位置梯度可定義如下( L是loss function ):
如上所述,移動方向受權重的影響。由于隨機初始化權重,所以突觸的移動在早期迭代中隨機流動。這可能導致該位置堅持局部最小化; 因此,我們首先對網絡進行預熱,而無需了解位置參數。在早期迭代中,網絡只能學習具有固定形狀的權重。然后它同時學習位置和權重。
接下來就是實驗了~~~(先挖個坑,可仔細閱讀https://arxiv.org/pdf/1703.09076.pdf)