菜鳥實習日記~day5(VGG+video feature flow PPT)

生活:

今天累成狗了......柱子哥讓我做關于video feature flow主線的PPT,然后在組會上講...我一個剛來不到1個月的實習生,這簡直太看得起我了。。。


中午吃的那個炸鮮奶挺好吃的~

科研:

1.VGG:

詳解CNN五大經典模型:Lenet,Alexnet,Googlenet,VGG,DRL

基于CNN經典的五大模型在上面的鏈接里都簡單介紹啦,下面主要說VGG和Alexnet:

VGG相對來說,有更準確的估值,更節省空間。

先解釋幾個仍然不清楚的概念:

@1:filter(過濾器)——相當于一套卷積參數,每個Filter都可以把原始輸入圖像卷積得到一個Feature Map,三個Filter就可以得到三個Feature Map.

@2:channel(通道)——我們可以把Feature Map可以看做是通過卷積變換提取到的圖像特征,三個Filter就對原始圖像提取出三組不同的特征,也就是得到了三個Feature Map,也稱做三個通道(channel)

VGG結構:

VGG結構圖

與AlexNet相同點

1.最后三層FC層(Fully Connected全連接層)結構相同。

2.都分成五層(組)。

3.每層和每層之間用pooling層分開。

不同點

1.AlexNet每層僅僅含有一個Convolution層,filter的大小7x7(很大);而VGG每層含有多個(2~4)個Convolution層,filter的大小是3x3(最?。:苊黠@,VGG是在模仿Alex的結構,然而它通過降低filter的大小,增加層數來達到同樣的效果。我提出我的一個對這種模仿的一種我自己的理解。因為不是論文中講到,僅僅是我自己的理解,僅供大家參考。

作者在論文中說了一句

"This can be seen as imposing a regularisation on the 7 × 7 conv. filters, forcing them to have a decomposition through the 3 × 3 filters"

他說7x7 filter可以被分解成若干個3x3的filter的疊加。

類比一下n維空間的向量x,x的正交分解

x = x1(1, 0, 0, ....) + x2(0, 1, 0, ...) + x3(0, 0, 1,...) + ... + xn(0, 0, 0, ..., 1)

每一組的每一層的filter被類比成n維歐幾里得空間的基底。

若VGG的一組含有3層3x3的filter,則我們則假設一個7x7的filter可以被分解成3種“正交”的3x3的filter。

作者原文:First, we incorporate three non-linearrectification layers instead of a single one, which makes the decision function more discriminative.Second, we decrease the number of parameters: assuming that both the input and the output of athree-layer 3 × 3 convolution stack has C channels, the stack is parametrised by 3? 32C^2 = 27C^2weights; at the same time, a single 7 × 7 conv. layer would require 72C^2 = 49C^2

2.AlexNet的Channel明顯小于VGG。猜測VGG的之所以能夠達到更高的精準性,源自于更多的Channel數。而由于filter size的減小,channel可以大幅度增加,更多的信息可以被提取。

作者:voidrank

鏈接:http://www.lxweimin.com/p/9c6d90e4f20e


最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容