原文:http://blog.csdn.net/GarfieldEr007/article/details/51025323?locationNum=2
本文中,我會(huì)根據(jù)下大家image classification常用的cnn模型,針對(duì)cifar10(for 物體識(shí)別),mnist(for 字符識(shí)別)& ImageNet(for 物體識(shí)別)做一個(gè)model 總結(jié)。
好,本文就從數(shù)據(jù)集說起,對(duì)數(shù)據(jù)集不熟悉的小伙伴請(qǐng)先去了解下這3個(gè)數(shù)據(jù)集,下面我們針對(duì)每個(gè)數(shù)據(jù)集畫出其通用模型。
===================================
1.?Cifar10
60000張32*32彩色圖,10類,每類5000張用于training,1000張用于testing,通常做object recognition/classification。
模型:(上面寫的數(shù)字是該層節(jié)點(diǎn)數(shù))
2.?Mnist
黑白圖,手寫體,60000training,10000testing,已做好croping,28*28,用作classification。
LeNet模型:
3.?ImageNet
10w類,每類約1000張彩色圖的大規(guī)模數(shù)據(jù)集 ,需要注冊(cè)下載。從10年起每年都有imagenet的競(jìng)賽,分為detection, classification & localization. 14年的比賽結(jié)果和方法見這里。
3.1 2012 AlexNet
模型:
但是里面細(xì)節(jié)我一直沒搞過,今天就任性了一把,把每一層列出來了大小及其對(duì)應(yīng)操作。自認(rèn)為看上去不如上圖清晰,但是會(huì)對(duì)每一步的操作有更加深入的了解。。。
此圖從下往上看,最下方是輸入data(注意上圖中224是錯(cuò)的,這里crop后的image實(shí)際上是227*227的)。
PS: crop 為將圖片進(jìn)行四個(gè)邊界crop+中心crop
每一層data格式(batch size, # feature map, height of feature, width of feature)
每一次convolution(conv)的格式(#output feature,#conv feature map,kernel height,kernel width)
這里我們看到了最后fc8(第8層,fully connect)接的是LABEL,這是一個(gè)loss層,多類分類,采用softmax loss做為loss function。這是訓(xùn)練時(shí)候優(yōu)化參數(shù)定的,那測(cè)試的時(shí)候怎么搞?
——
測(cè)試的時(shí)候,最后的特征fc8接一層probability,返回類型為softmax的概率,哪個(gè)最高結(jié)果就評(píng)定為哪一類。
如果做全局系統(tǒng)測(cè)評(píng),可以再在后面加一層accuracy層,返回類型為ACCURACY.
3.2 2014?GoogLeNet
2014 ImageNet classification & Detection的冠軍,22層網(wǎng)絡(luò)。。。給跪了,感興趣的同學(xué)去看paper里的結(jié)構(gòu)吧,這里我截圖截不下來了。。。
另外,給幾個(gè)參考:
1. 初學(xué)者玩玩:可以用在線ConvNet試一下
2.?DIY Deep learning Architecture
3. 其實(shí)最好的reference還是paper + code啦,上面的architecture可以參考caffe中example/imagenet的prototxt。
from:?http://blog.csdn.net/abcjennifer/article/details/42493493