Google Research的Inception模型和Microsoft Research的Residual Net模型兩大圖像識別殺器結合效果如何?在這篇2月23日公布在arxiv上的文章“Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning”給出了實驗上的結論。
在該論文中,姑且將ResNet的核心模塊稱為residual connections,實驗結果表明,residual connections可以提高Inception網絡的準確率,并且不會提高計算量。這似乎是理所當然的。采用3個帶有residual connection的Inception模型和1個Inception v4模型,ImageNet上的top 5錯誤率已經可以刷到3.08%啦。也就是說,錯誤率2.x%的時代已經指日可待了。
關于深度卷積神經網絡的發展以及在各種視覺任務上的優異表現就不用贅述了。在討論related work中,本文認為residual connection并不是訓練very deep network的必要條件,但可以顯著的加快訓練的速度。同時,本文回顧了Inception模型的發展歷程,原始的Inception模型,也就是GoogLeNet被稱為Inception-v1,加入batch normalization之后被稱為Inception-v2,加入factorization的idea之后,改進為Inception-v3。
Google Research從DistBelief過渡到TensorFlow之后,不用再顧慮分布式訓練時要做模型的分割。Inception-v4模型設計的可以更簡潔,計算量也更小。具體的模型如下圖:
其中的Inception-A模塊是這樣的:
接下來將介紹重頭戲,Inception-ResNet,其中的一個典型模塊是這樣的:
其中的+就是residual connection了。通過20個類似的模塊組合,Inception-ResNet構建如下:
基于Inception-v3和Inception-v4,文中分別得到了Inception-ResNet-v1和Inception-ResNet-v2兩個模型。另外,文中還提到當卷積核超過1000個的大網絡訓練時,將殘差(residuals)縮小有助于訓練的穩定性。這個做法同原始ResNet論文中的two-phase training的效果類似。
果然如winsty所講,現在論文的公式越來越少了,網絡框圖開始越來越多了。本文行文并不足夠規范,更像一個report。接下就是報各種很牛的實驗結果了。
總結來講,Google Research團隊在這篇report中介紹了新的Inception-v4網絡,并結合最新的residual connection技術,將ImageNet上圖像分類的結果刷到了3.08%了。
[1] Christian Szegedy,Sergey Ioffe,Vincent Vanhoucke. Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning. arXiv:1602.07261[cs.CV]