生活:
今天累成狗了......柱子哥讓我做關于video feature flow主線的PPT,然后在組會上講...我一個剛來不到1個月的實習生,這簡直太看得起我了。。。
中午吃的那個炸鮮奶挺好吃的~
科研:
1.VGG:
基于CNN經典的五大模型在上面的鏈接里都簡單介紹啦,下面主要說VGG和Alexnet:
VGG相對來說,有更準確的估值,更節省空間。
先解釋幾個仍然不清楚的概念:
@1:filter(過濾器)——相當于一套卷積參數,每個Filter都可以把原始輸入圖像卷積得到一個Feature Map,三個Filter就可以得到三個Feature Map.
@2:channel(通道)——我們可以把Feature Map可以看做是通過卷積變換提取到的圖像特征,三個Filter就對原始圖像提取出三組不同的特征,也就是得到了三個Feature Map,也稱做三個通道(channel)
VGG結構:
與AlexNet相同點
1.最后三層FC層(Fully Connected全連接層)結構相同。
2.都分成五層(組)。
3.每層和每層之間用pooling層分開。
不同點
1.AlexNet每層僅僅含有一個Convolution層,filter的大小7x7(很大);而VGG每層含有多個(2~4)個Convolution層,filter的大小是3x3(最?。:苊黠@,VGG是在模仿Alex的結構,然而它通過降低filter的大小,增加層數來達到同樣的效果。我提出我的一個對這種模仿的一種我自己的理解。因為不是論文中講到,僅僅是我自己的理解,僅供大家參考。
作者在論文中說了一句
"This can be seen as imposing a regularisation on the 7 × 7 conv. filters, forcing them to have a decomposition through the 3 × 3 filters"
他說7x7 filter可以被分解成若干個3x3的filter的疊加。
類比一下n維空間的向量x,x的正交分解
x = x1(1, 0, 0, ....) + x2(0, 1, 0, ...) + x3(0, 0, 1,...) + ... + xn(0, 0, 0, ..., 1)
每一組的每一層的filter被類比成n維歐幾里得空間的基底。
若VGG的一組含有3層3x3的filter,則我們則假設一個7x7的filter可以被分解成3種“正交”的3x3的filter。
作者原文:First, we incorporate three non-linearrectification layers instead of a single one, which makes the decision function more discriminative.Second, we decrease the number of parameters: assuming that both the input and the output of athree-layer 3 × 3 convolution stack has C channels, the stack is parametrised by 3? 32C^2 = 27C^2weights; at the same time, a single 7 × 7 conv. layer would require 72C^2 = 49C^2
2.AlexNet的Channel明顯小于VGG。猜測VGG的之所以能夠達到更高的精準性,源自于更多的Channel數。而由于filter size的減小,channel可以大幅度增加,更多的信息可以被提取。
作者:voidrank
鏈接:http://www.lxweimin.com/p/9c6d90e4f20e