綜述
InceptionV2的核心思想來自Google的《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》[1]和《Rethinking the Inception Architecture for Computer Vision》[2]這兩篇論文。它根據第一篇論文加入了BN層。根據第二篇論文用一系列更小的卷積核(3x3)替代了原來的大卷積核(5x5,7x7)[3]。
Batch Normalization
第一篇論文中提出了Internal Covariate Shift這個問題,文章中說,在訓練神經網絡的過程中,因為前一層的參數變化而導致每層的輸入分布都在不斷變化(the distribution of each layer’s inputs changes during training, as the parameters of the previous layers change.)。這使得我們需要更低的學習率和更小心地進行參數初始化,導致我們難以充分構建一個具有飽滿地非線性結構的模型,而這個現象就被稱作Internal Covariate Shift。
為了解決這個問題,Google提出了Batch Normalization(批規范化)[4]。即在每次SGD時,通過mini-batch來對相應的activation做歸一化操作,使得結果(輸出信號各個維度)的均值為0,方差為1,其具體做法如圖1第三步(normalize).在Normalization完成后,Google的研究員仍對數值穩定性不放心,又加入了兩個參數gamma和beta,進行了scale and shift,如圖1第四步。注意到,如果我們令gamma等于之前求得的標準差,beta等于之前求得的均值,則這個變換就又將數據還原回去了。兩個參數與每層的W和b一樣,是需要迭代求解的[5]。
而這兩個參數gamma和beta的迭代求解過程,在論文中也給了出來,也是在反向傳播的過程中算損失函數對gamma和beta兩個參數的導數,還要求損失函數對Wx+b中的x的導數,以便使誤差繼續向后傳播。其具體過程如圖2所示,使用了鏈式法則。
最后,文章給出了訓練一個BN網絡的方法,如圖3.在訓練的最后一個epoch時,要對這一epoch所有的訓練樣本的均值和標準差進行統計,這樣在一張測試圖片進來時,使用訓練樣本中的標準差的期望和均值的期望對測試數據進行歸一化,注意這里標準差使用的期望是其無偏估計,如圖3第10步所示。
實際上,在tensorflow的源碼里,inceptionV1也已經使用了Batch Normalization,只是給了一個參數用來選擇是否使用,而從inceptionV2開始去掉了這個參數,都使用BN算法了。
更小的卷積核
大尺寸的卷積核可以帶來更大的感受野,但也意味著更多的參數,比如5x5卷積核參數是3x3卷積核的25/9=2.78倍。為此,作者提出可以用2個連續的3x3卷積層(stride=1)組成的小網絡來代替單個的5x5卷積層,(保持感受野范圍的同時又減少了參數量)[6],并且可以避免表達瓶頸,加深非線性表達能力,如圖4.
同時,作者提出了兩個問題并給出了回答:
- 這種替代會造成表達能力的下降嗎? 后面有大量實驗可以表明不會造成表達缺失;
-
3x3卷積之后還要再加激活嗎? 作者也做了對比試驗,表明添加非線性激活會提高性能。
這樣,新的inception結構如圖5所示。
其代碼實現如下所示:
with tf.variable_scope(end_point):
with tf.variable_scope('Branch_0'):
branch_0 = slim.conv2d(net, depth(64), [1, 1], scope='Conv2d_0a_1x1')
with tf.variable_scope('Branch_1'):
branch_1 = slim.conv2d(
net, depth(64), [1, 1],
weights_initializer=trunc_normal(0.09),
scope='Conv2d_0a_1x1')
branch_1 = slim.conv2d(branch_1, depth(64), [3, 3],
scope='Conv2d_0b_3x3')
with tf.variable_scope('Branch_2'):
branch_2 = slim.conv2d(
net, depth(64), [1, 1],
weights_initializer=trunc_normal(0.09),
scope='Conv2d_0a_1x1')
branch_2 = slim.conv2d(branch_2, depth(96), [3, 3],
scope='Conv2d_0b_3x3')
branch_2 = slim.conv2d(branch_2, depth(96), [3, 3],
scope='Conv2d_0c_3x3')
with tf.variable_scope('Branch_3'):
branch_3 = slim.avg_pool2d(net, [3, 3], scope='AvgPool_0a_3x3')
branch_3 = slim.conv2d(
branch_3, depth(32), [1, 1],
weights_initializer=trunc_normal(0.1),
scope='Conv2d_0b_1x1')
net = tf.concat(3, [branch_0, branch_1, branch_2, branch_3])
end_points[end_point] = net
總結
在我看來,inceptionV2更像一個過渡,它是Google的工程師們為了最大程度挖掘inception這個idea而進行的改良,它使用的Batch Normalization是對inceptionV1的一個補充,而用小的卷積核去替代大的卷積核這一點,在inceptionV3中發揚光大,實際上,《Rethinking the Inception Architecture for Computer Vision》這篇論文正是tensorflow源碼中所寫的incptionV3的核心論文,而這篇論文中把提出的新的網絡結構稱作inceptionV2(而代碼實現卻叫inceptionV3)。這大概也是Google的工程師和科學家們的一個小失誤吧,不過從這里也可以看出inceptionV2也是對新思想的一個嘗試。
Reference
[1]Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift
[2]Rethinking the Inception Architecture for Computer Vision
[3]googleNet Inception v1 - v4 papers 發展歷程(CSDN)
[4]深度學習中 Batch Normalization為什么效果好?(知乎)
[5]“Batch Normalization Accelerating Deep Network Training by Reducing Internal Covariate Shift”閱讀筆記與實現
[6]Inception in CNN(CSDN)